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5 HINTERGRUND PER ERFINDUNG 

1. GEBIET PER ERFINDUNG 

10 Pie Erfindiuig betrifft das Gebiet von Verfahren und Vorrichtimgen zum 
Unterhalten eines konsistenten Pateisystems xind zum SchafFen von aus- 
schlieBlich lesbaren Kopien des Pateisystems, 

2. EINSCHLAGIGER STAND PER TECHNIK 

15 

Samtliche Pateisysteme mussen auch bei Systemausfall Konsistenz be- 
wahren. Im Stand der Technik wurde zu diesem Zweck eine Reihe imter- 
schiedlicher Konsistenzmethoden eingesetzt. 

20 Eine der schwierigsten imd zeitraubendsten Anforderungen bei der Ver- 
waltung jedes Pateiservers ist die Anfertigung von Sicherungen der Patei- 
daten. Traditionelle Losungen bestanden darin, eine Kopie der Paten auf 
Band oder andere Offline-Patentrager zu bringen. Bei einigen Pateisyste- 
men muB beim SicherungsprozeB der Patenserver offline gesetzt werden, 

25 xrni sicher zu gehen, daB der Sicherungsvorgang voUstandig konsistent ist. 
Ein jungerer Fortschritt bei der Patensicherung ist die Moglichkeit, ein 
Pateisystem rasch zu ,^onen" (d.i. ein zum Stand der Technik gehoriges 
Verfahren zum Erzeugen einer nur lesbaren Kopie des Pateisystems auf 
Platte), und eine Patensicherung anhand des Klons, imd nicht aus dem 

30 aktiven Pateisystem zu erstellen. Bei diesem Typ von Patei kann der Pa- 
tenserver beim Sicherungsbetrieb online bleiben. 



Datenbank-Konsisten;; 



Eine herkommliche Datenbank (Dateisystem) ist von Chutani, et al. offen- 
bart in seinem Artikel mit dem Titel The Episode File System, USENIX, 
Winter 1992, Seiten 43-59. Dieser Artikel beschreibt das Episode- 
Dateisystem, bei dem es sich um eine Datenbank unter Verwendung von 
Meta-Daten (das heiBt Inoden-Tabellen. Verzeichnissen, Momentaufnah- 
men und indirekten Blocken) handelt. Es kann als eigenstandige oder als 
verteilte Datenbank verwendet warden. Episode unterhait eine Mehrzahl 
separater Datenbank-Hirarchien. Episode nimmt koUektiv auf mehrere 
Datenbanken als ,Aggregat" Bezug. Insbesondere schaffl Episode einen 
Klon jeder Datenbank zur langsamen Andenmg von Daten. 

In Episode enthalt jede logische Datenbank eine ,^oden"-TabelIe. Eine 
Anoden-Tabelle ist Squivalent einer in Datenbanken wie dem Berkeley 
Fast File System verwendeten Inoden-Tabelle. Es handelt sich um eine 
252-Byte-Struktur. Anoden dienen zum Speichem samtlicher Benutzerda- 
ten sowie von Meta-Daten innerhalb des Episode-Dateisystems. Eine An- 
ode beschreibt das Hauptverzeichnis einer Datenbank einschlieBlich Hilfs- 
dateien und Verzeichnissen. Jedes derartige Dateisystem wird in Episode 
als eine ,J)ateimenge" (Fileset) referenziert. Samtliche Daten innerhalb 
einer Dateimenge konnen geortet werden, indem iterativ durch die An- 
oden-Tabelle gegangen und jede Datei ihrerseits verarbeitet wird. Episode 
erzeugt eine ausschlieBlich lesbare Kopie einer Datenbank, die hier als 
„Klon" bezeichnet wird, und sie nutzt gemeinsam Daten mit dem aktiven 
Dateisystem unter Einsatz von Copy-On-Write-Methoden (COW- 
Methoden; Kopieren nach Schreiben). 

Episode verwendet eine Protokolhnethode zur Wiedererlangung einer oder 
mehrerer Datenbanken nach einem Systemzusammenbruch. Das Protokol- 
lieren garantiert, daB die Datei-Meta-Daten konsistent sind. Eine Moment- 
aufhahmen-Tabelle enthalt Information daruber, ob jeder Block innerhalb 
der Datenbank zugeordnet ist oder nicht. AuBerdem zeigt die Momentauf- 
nahmen-Tabelle an, ob jeder Block protokolliert ist oder nicht. SSmtliche 
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Meta-Daten-Aktualisierungen werden in einem Protokoll-„BehaIter" auf- 
gezeichnet, der das Transaktions-Protokoll des Aggregats speichert. Das 
ProtokoU wird als Kreispuffer von Platten-Blocken verarbeitet. Die Tran- 
saktions-ProtokoUierung von Episode venvendet Protokolliermethoden, 
5 die urspriinglich fur Datenbanken mil dem Zweck entwickelt wurden, Da- 
teisystem-Konsistenz zu garantieren. Diese Methode macht sorgfaltigen 
Gebrauch von Schreibbefehlen sowie einem Wiederherstellungsprogramm, 
die von Datenbankmethoden innerhalb des Wiederherstellungsprogramms 
unterstutzt werden. 

10 

Andere zum Stand der Technik zahlende Systeme enthalten JFS von IBM 
und VxFS von Veritas Corporation xind machen Gebrauch von unter- 
schiedlichen Formen der Transaktions-Protokollierung, um den Wieder- 
herstellungsprozeB zu beschleunigen, allerdings erfordem sie immer noch 
15 einen WiederherstellxmgsprozeB. 

Ein weiteres bekanntes Verfahren wird als Methode des „geordneten 
Schreibens" bezeichnet. Es schreibt samtliche Platten-Blocke in sorg^ltig 
festgelegter Reihenfolge, so dafi Schaden minimiert wird, wenn es zu ei- 

20 nem Systemausfall konunt, wahrend eine Reihe von zueinander in Bezie- 
hung stehender Schreibvorgange durchgefiihrt wird. Dieser Stand der 
Technik versucht sicheizustellen, dafi moglicherweise auftretende Inkonsi- 
stenzen harmlos sind. Beispielsweise werden einige wenige ungenutzte 
Blocke Oder Inoden als zugeordnet markiert Der Hauptnachteil dieser Me- 

25 thode besteht darin, daB die dadurch der Plattenordnung auferlegten Re- 
striktionen eine hohe Leistungsfahigkeit kaum zulassen. 

Ein weiteres bekanntes System ist eine Weiterentwicklung des zweiten 
bekannten Verfahrens, bezeichnet als Methode des „geordneten Schreibens 
30 mit Wiederherstellung**. Bei diesem Verfahren konnen hikonsistenzen 
moglicherweise schadlich sein. Allerdings ist die Reihenfolge von 
Schreibvorgangen derart beschrankt, daB sich Inkonsistenzen auffinden 
imd mit Hilfe eines Wiederherstellungsprogranmis fixieren lassen. Beispie- 
le fur dieses Verfahren umfassen das urspriingliche UNDC-Dateisystem 
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sowie das Berkeley Fast File System (FFS). Diese Methode verringert die 
Platten-Reihenfolge ausreichend, um die LeistungseinbuBe der Platten- 
Auftragserteilung zu beseitigen. Ein weiterer Nachteil besteht darin, daB 
der WiederherstellungsprozeB zeitraubend ist. Typischenveise ist er pro- 
5 portional zur GroBe des Dateisystems. Die Wiederherstellung eines 5 GB 
umfassenden FFS-Dateisystems erfordert daher beispielsweise zur Durch- 
fuhrung eine Stunde oder mehr. 

Dateisvstem-tCIone 

10 

Figur 1 ist ein den Stand der Technik zeigendes Diagramm fur das Episo- 
de-Dateisystem und veranschaulicht den Einsatz von Kopieren-Nach- 
Schreiben-Methoden (COW-Methoden), um einen Dateimengen-Klon zu 
erzeugen. Eine Anode 110 enthalt einen ersten Zeiger (Pointer) 1 lOA mit 

15 einem gesetzten COW-Bit. Der Zeiger 1 lOA referenziert den Datenblock 
114 direkt. Die Anode 110 enthalt einen zweiten Zeiger HOB, dessen 
cow-Bit geloscht ist. Der Zeiger 1 lOB der Anode referenziert den Block 
112 indirekt. Der indirekte Block 112 enthalt einen Zeiger 11 2 A, der den 
Datenblock 124 direkt referenziert. Das COW-Bit des Zeigers 112A ist 

20 gesetzt. Der indirekte Block 112 enthalt einen zweiten Zeiger 112B, der 
den Datenblock 126 referenziert. Das COW-Bit des Zeigers 1 12B ist ge- 
loscht 

Eine Klon-Anode 120 enthalt einen ersten Zeiger 120A, der auf den Da- 
25 tenblock 1 14 zeigt. Das COW-Bit des Zeigers 120A ist geloscht. Der zwei- 
te Zeiger 120B der Klon-Anode 120 referenziert den indirekten Block 122. 
Das COW-Bit des Zeigers 120B ist geloscht. Der indirekte Block 122 ent- 
halt einen Zeiger 122 A, der den Datenblock 124 referenziert. Das COW- 
Bit des Zeigers 122A ist gel5scht. 

30 

Wie in Figur I gezeigt ist, enthalt jeder direkte Zeiger llOA, 1 12A-112B, 
120A und 122A und jeder indirekte Zeiger HOB und 120B in dem Episo- 
de-Dateisystem ein COW-Bit. Blocke, die nicht modifiziert wurden, sind 
sowohl im aktiven Dateisystem als auch in dem Klon enthalten, und bei 
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ihnen sind die COW-Bits gesetzt (1). Das COW-Bit ist geloscht (0), wenn 
ein von dem Zeiger referenzierter Block modifiziert wurde und damit Teil 
des aktiven Dateisystems ist, nicht jedoch Teil des Klons. 

5 Wird ein Kopieren-Nach-Schreiben-Block modifiziert, so wird gemaB Fi- 
gur 1 ein neuer Block zugeordnet und aktualisiert. Das COW-Flag in dem 
Zeiger auf diesen neuen Block wird dann gesetzt. Das COW-Bit des Zei- 
gers 11 OA der urspriinglichen Anode 110 wird geloscht. Wenn also die 
Klon-Anode 120 erzeugt wird, referenziert die Klon-Anode 120 auch den 

10 Datenblock 1 14. Sowohl die Original-Anode 1 10 als auch die Klon-Anode 
120 referenzieren den Datenblock 114. Auch der Datenblock 124 wurde 
modifiziert, angedeutet durch em geloschtes COW-Bit des Zeigers 1 12A in 
dem urspriinglichen indirekten Block 1 12. Wenn folglich die Klon-Anode 
erzeugt wird, wird der indirekte Block 122 erzeugt. Der Zeiger 122 A des 

15 indirekten Blocks 122 referenziert den Datenblock 124, \md das COW-Bit 
des Zeigers 122 A ist geloscht. Sowohl der indirekte Block 122 der Origi- 
nal-Anode 1 10 als auch der indirekte Block 122 der Klon-Anode 120 refe- 
renzieren den Datenblock 124. 

20 Figur 1 zeigt das Kopieren einer Anode zum Erzeugen einer Klon-Anode 
120 fur eine einzelne Datei. Allerdings mussen Klon-Anoden fur jede Da- 
tei erzeugt werden, die geanderte Datenblocke in dem Dateisystem enthalt. 
Zur Zeit des Klonens mussen samtliche Inoden kopiert werden. Das Er- 
zeugen von Klon-Anoden fur jede modifizierte Datei inherhalb des Datei- 

25 systems kann signifikante Mengen an Plattenspeicherplatz verbrauchen. 
AuBerdem ist Episode nicht in der Lage, Mehrfach-Klone zu handhaben, 
da jeder Zeiger lediglich ein einziges COW-Bit aufweist. Ein einzelnes 
COW-Bit ist nicht in der Lage, mehr als einen Klon zu unterscheiden. Bei 
mehr als einem Klon gibt es kein zweites COW-Bit, welches gesetzt wer- 

30 den konnte. 

Ein Dateisatz „Klon" ist eine ausschlieBlich lesbare Kopie eines aktiven 
Dateisatzes, wohingegen der aktive Dateisatz selbst sowohl lesbar als auch 
beschreibbar ist. Klone werden unter Verwendung von COW-Methoden 



implementiert und nutzen gemeinsam DatenblScke mit einem aktiven Da- 
teisatz auf Block-Fur-BIock-Basis. Episode implementiert das Klonen da- 
durch, daB jede in einem Dateisatz gespeicherte Anode kopiert wird. Nach 
dem anfanglichen Klonen zeigen sowohl die beschreibbare Anode des ak- 
tiven Dateisatzes als auch die geklonte Anode auf denselben Datenblock 
Oder dieselben Datenblocke. Allerdings sind Plattenadressen fur direkte 
und indirekte Blocke innerhalb der Original-Anode als COW gekenn- 
zeichnet. Deshalb hat eine Aktualisierung des beschreibbaren Dateisatzes 
keinen EinfluB auf den Klon. Wird ein COW-Block modifiziert, so wird 
ein neuer Block in dem Dateisystem zugewiesen und mit der Modifizie- 
ning aktualisiert. Das COW-FIag in dem Zeiger dieses neuen Blocks wird 
geloscht Das bekannte Episode-System erzeugt Klone, die die gesamte 
Inoden-Datei sowie sSmtliche indirekten Blocke innerhalb des Dateisy- 
stems duplizieren. Episode dupliziert samtliche Inoden und indirekten 
Blocke derart, daB es ein Kopieren-Nach-Schreiben-(COW-)Bit in samtli- 
chen Zeigem auf Bl5cke setzen kann, die sowohl von dem aktiven Datei- 
system als auch von dem Klon benutzt werden. Bei Episode ist es wichtig, 
diese Blocke zu kennzeichnen, so daB neue, in das aktive Dateisystem ein- 
geschriebene Daten die alten Daten, welche Teil des Klons sind, und die 
deshalb nicht geandert werden durfen, nicht iiberschreiben. 

Das Erzeugen eines Klons im Stand der Technik kann bis zu 32 MB auf 
eine 1-GB-Platte verbrauchen. Der Stand der Technik verwendet 256 MB 
Plattenspeicherraum auf einer 1-GB-Platte (ffir 4-KB-Bl6cke), um acht 
Klone des Dateisystems zu halten. Damit kann der Stand der Technik kei- 
ne groBen Anzahlen von Klonen zum Verhindem von Datenverlusten ver- 
wenden. Statt dessen erleichterte er Qblicherweise das Sichem des Dateisy- 
stems auf eine Hilfsspeichereinrichtung, verschieden von dem Plattenlauf- 
werk, so zum Beispiel ein Band-SicherungsgerSt. Klone werden zum Si- 
chem eines Dateisystems in einem konsistenten Zustand in dem Zeitpunkt 
verwendet, zu dem der Klon hergestellt wird. Durch Klonen des Dateisy- 
stems kann der Klon zur Sicherheit auf das Hilfsspeichersystem gebracht 
werden, ohne daB dabei das aktive Dateisystem abgeschaltet wird, wo- 
durch Benutzer an einer Benutzung des Dateisystems gehindert wiirden. 
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Damit ermoglichen es Klone den Benutzem, weiterhin auf ein aktives Da- 
teisystem zuzugreifen, wahrend das Dateisystem selbst in einem konsisten- 
ten Zustand gesichert wird, AnschlieBend wird der Klpn geloscht, nachdem 
die Sichening abgeschlossen ist Episode ist nicht in der Lage, mehrere 
5 Klone 2x1 fiihren, da jeder Zeiger niir ein COW-Bit enthalt. Ein einzelnes 
COW-Bit ist nicht im Stande, mehr als einen Klon zu unterscheiden. Bei 
mehr als einem Klon gibt es kein zweites COW-Bit, welches gesetzt wer- 
den konnte. 

10 Ein Nachteil des bekannten Systems zum Erzeugen von Dateisystem- 
Klonen besteht darin, daB das System samtliche Inoden xmd samtliche indi- 
rekten Blocke innerhalb des Dateisystems dupliziert. Bei einem System 
mit zahlreichen kleinen Dateien konnen die Inoden allein einen signifikan- 
ten Prozentsatz des gesamten Plattenspeicherraimis eines Dateisystems 

15 belegen. In einem 1-GB-Dateisystem zimi Beispiel, welches mit 4-KB- 
Dateien gefiillt ist, gibt es 32 MB Inoden. Das Erzeugen eines Episode- 
Klons verbraucht also einen signifikanten Anteil des Plattenspeicherraums 
und erzeugt groBe Mengen (das heiBt zahkeiche Megabytes) an Platten- 
verkehr. Als Ergebnis dieser Zustande nimmt das Erzeugen eines Klons 

20 eines Dateisystems einen betrachtlichen Zeitraum bis zur VervoUstandi- 
gung in Anspruch. 

Ein weiterer Nachteil des bekannten Systems besteht darin, daB das System 
die Erzeugung mehrerer Klone desselben Dateisystems schwierig macht 
25 Im Ergebnis neigen die Klone dazu, einzeln fur Kurzzeitoperationen ver- 
wendet zu werden, so zum Beispiel zum Sichem des Dateisystems auf 
Band, um dann geloscht zu werden. 

Die in den geanderten Anspriichen definierte Erfindung schafft ein Verfah- 
30 ren zum Halten eines Dateisystems in einem konsistenten Zustand sowie 
zum Erzeugen von ausschlieBlich lesbaren Kopien eines Dateisystems. 
Anderungen des Dateisystems werden streng gesteuert, um das Dateisy- 
stem in einem konsistenten Zustand zu halten. Das Dateisystem schreitet 
von einem selbst-konsistenten Zustand zu einem weiteren selbst- 
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konsistenten Zustand weiter. Die Menge an selbst-konsistenten Blocken 
auf einer Platte, die durch die Haupt-Inode beherrscht wird, wird als Kon- 
sistenzpunkt (CP) bezeichnet. Zum Implementieren yon Konsistenzpunk- 
ten schreibt WAFL stets neue Daten in nicht-zugewiesene Blocke auf der 
Platte. Es iiberschreibt niemals existierende Daten. Ein neuer Konsistenz- 
punkt tritt auf, wenn der Finsfo-BIock dadurch akttialisiert wird, dafi eine 
neue Haupt-Inode fur die Inodendatei in ihn eingeschrieben wird. Solange 
die Haupt-Inode nicht aktualisiert wird, andert sich also der Zustand des 
Dateisystems auf der Platte nicht. 

Die vorliegende Erfmdung schafft auBerdem Schnappschiisse, bei denen es 
sich um virtuelle, ausschliefilich lesbare Kopien des Dateisystems handelt. 
Ein SchnappschuB nimmt keinen Plattenspeicherplatz in Anspruch, wenn 
er am Anfang erzeugt wird. Er ist derart ausgestaltet, dafi zahlreiche ver- 
schiedene Schnappschiisse ffir ein und dasselbe Dateisystem erzeugt wer- 
den konnen- Im Gegensatz zu herkonunlichen Dateisystemen, die einen 
Klon durch Duplizieren des gesamten Inoden-Dateisatzes und samtlicher 
indirekter Blocke duplizieren, dupliziert die vorliegende Erfindung nur 
diejenige Inode, die die Inodendatei beschreibt. Der also tatsSchlich beno- 
tigte Plattenspeicherplatz fur eine Momentaufeahme betragt lediglich 128 
Bytes, die zum Speichem der duplizierten Inode verwendet werden. Die 
128 Bytes, die erfindungsgemafi fur eine Momentaufeahme oder einen 
SchnappschuB ben5tigt werden, sind deutlich weniger als die zahkeichen 
Megabytes, die fur einen Klon im Stand der Technik benotigt werden. 

Die vorliegende Erfindung verhindert, dafi neue Daten, die in das aktive 
Dateisystem geschrieben werden, „alte" Daten, die Teil eines oder mehre- 
rer Schnappschusse sind, uberschreiben. Notwendig ist, daB alte Daten 
solange nicht uberschrieben werden, wie sie Teil eines Schnappschusses 
sind. Erreicht wird dies durch Verwendung einer freien Mehrfachbit- 
Blockabbildung. Die meisten zum Stand der Technik gehorigen Dateisy- 
steme verwenden eine freie Blockabbildung mit einem einzelnen Bit pro 
Block, um anzugeben, ob ein Block zugewiesen ist oder nicht. Die vorlie- 
gende Erfmdung verwendet eine Blockabbildung mit 32-Bit-Eintragen. Ein 
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erstes Bit gibt an, ob ein Block von dem aktiven Dateisystem verwendet 
wird, und 20 verbleibende Bits werden fiir bis zu 20 Schnappschusse ver- 
wendet, allerdings konnen einige Bits der 31 Bits fiir andere Zwecke ver- 
wendet werden, 

5 

KURZE BESCHREIBUNG DER ZEICHNUNGEN 

Figur 1 ist ein Blockdiagramm eines zum Stand der Technik zahlenden 
,JGons" eines Dateisystems. 

10 

Figur 2 ist ein Diagramm, welches eine Liste von Inoden mit unsauberen 
Puffem veranschaulicht. 

Figur 3 ist ein Diagramm, das eine platteninteme Inode des WAFL dar- 
15 stellt. 

Figuren 4A-4D sind Diagramme, die platteninteme Inoden von WAFL mit 
unterschiedlichen Umwege-Ebenen veranschaulichen. 

20 Figur 5 ist ein FluBdiagramm des Verfahrens zum Erzeugen eines Konsi- 
stenzpxmkts. 

Figur 6 ist ein FluBdiagramm zur Veranschaulichung des Schritts 530 aus 
Figur 5 zum Erzeugen eines Konsistenzpunkts. 

25 

Figur 7 ist ein FluBdiagramm zum Veranschaulichen des Schritts 530 in 
Figur 5 zum Erzeugen eines Schnappschusses. 

Figur 8 ist ein Diagramm zum Veranschaulichen einer Intem-Inode des 
30 WAFL gemaB der Erfindung. 

Figur 9A-9D sind Diagramme, die Intem-Inoden des WAFL mit unter- 
schiedlichen Umwege-Ebenen gemaB der Erfmdimg darstellen. 
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Figur 10 ist ein Diagramm zum Veranschaulichen einer Intem-Inode 1020 
fur eine Datei. 

Figuren 1 1 A-1 ID sind Diagramme zum Veranschaulichen einer Blockab- 
bilddatei (bUonap) gemaB der Erfmdung. 

Figur 12 ist ein Diagramm zum Veranschaulichen einer erfindungsgema- 
Ben Inoden-Datei. 

Figuren 13A-13B sind Diagramme zum Veranschaulichen einer Inodenab- 
bild-Datei (inomap) gemiB der Erfindung. 

Figur 14 ist ein Diagramm zum Veranschaulichen eines erfindungsgema- 
Ben Verzeichnisses. 

Figur 15 ist ein Diagramm zum Veranschaulichen einer Dateisysteminfor- 
mationsstruktur (fsinfo), 

Figur 16 ist ein Diagramm zum Veranschaulichen des WAFL- 
Dateisystems. 

Figuren 17A-17L sind Diagramme zum VeranschauUchen des Erzeugens 
eines Konsistenzpiinkts. 

Figuren 18A-18C sind Diagramme zum Veranschaulichen des Erzeugens 
eines Schnappschusses. 

Figur 19 ist ein Diagramm zum Veranschaulichen von Andenmgen einer 
Inodendatei. 



Figur 20 ist ein Diagramm zum Veranschaulichen von fsinfo-Blocken, die 
zum Halten eines Dateisystems in einem konsistenten Zustand verwendet 
werden. 
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Figuren 21A-21F sind detaillierte Diagramme zum Veranschaulichen des 

Erzeugens eines Schnappschusses. 

Figur 22 ist ein Diagramm zum Veranschaulichen eines aktiven WAFL- 
5 Dateisystems mit drei Schnappschussen, die jeweils eine gemeinsame Da- 
tei referenzieren; and 

Figuren 23A-23B sind Diagramme zum Veranschaulichen der Aktualisie- 
nmg einer ZugrifFszeit. 

10 

DETAILLIERTE BESCHREffiUNG DER ERFINDUNG 

Beschrieben wird ein System zum Erzeugen von ausschlieBlich lesbaren 
Kopien eines Dateisystems (einer Datenbank). In der folgenden Beschrei- 

15 bung werden zahlreiche spezifische Einzelheiten, so zxim Beispiel Anzahl 
und Beschaffenheit von Flatten, Plattenblock-GroBen etc. im einzelnen 
beschrieben, van eine ausfuhrlichere Beschreibung der Erfindung anzubie- 
ten. Es ist jedoch fur den Fachmann ersichtlich, daB die Erfindung auch 
ohne diese spezifischen Einzelheiten ausgefuhrt werden kann. Andererseits 

20 wurden bekannte Merkmale nicht im einzehien beschrieben, um die Erfin- 
dung nicht in unnotiger Weise zu verundeutlichen. 

AVRITE-ANYWHERE-DATEISYSTEM-LAYOUT 

25 Die vorliegende Erfindung macht Gebrauch von einem Write-Anywhere- 
Dateisystem-Layout (WAFL von Write Anywhere File-system Layout), 
also von einer Dateisystem-Konfigxiration, die ein Aufzeichnen oder 
Schreiben an beliebiger Stelle ermoglicht. Das Plattenformatsystem beruht 
auf Blocken (das heifit 4 KB Blocken, die keine Fragmente besitzen), ver- 

30 wendet Inoden zum Beschreiben seiner Dateien, und enthalt Verzeichnisse, 
die einfach speziell formatierte Dateien sind. WAFL verwendet Dateien 
zum Speichem von Meta-Daten, welche das Layout des Dateisystems be- 
schreiben. Die WAFL-Meta-Dateien beinhalten: eine Inodendatei, eine 
Blockabbild-Datei (blkmap) und eine Inodenabbilddatei (inomap). Die 
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Inodendatei enthalt die Inodentabelle ffir das Dateisystem. Die blkmap- 
Datei gibt an, welche PIatten-Bl5cke zugeordnet sind. Die inomap-Datei 
gibt an, welche Inoden zugeordnet sind. Weiter unten werden Unterschei- 
dungsmerkmale fur platteninteme und WAFL-inteme Inoden diskutiert. 

5 

Platteninteme WAFL-Tnoden 

WAFL-Inoden unterscheiden sich von herkommlichen Inoden. Jede 
WAFL-Inode verweist auf 16 Blocke mit gleicher Umwegeebene. Eine 
10 Blocknununer ist 4 Bytes lang. Die Venvendung von Blocknummem mit 
gleicher Umwegeebene in einer Diode erleichtert die rekm^ive Verarbei- 
tung einer Datei. Figm- 3 ist ein Blockdiagiamm, das eine platteninteme 
Inode 310 veranschaulicht. Die platteninteme Inode 310 besteht aus Stan- 
dard-Inodeninformation 310A sowie 16 BIocknummem-Eintragen 310B 

15 gleicher Umwegeebene. Die Inodeninfonnation 310A umfaBt Information 
fiber den Inhaber einer Datei, Berechtigungen, DateigroBe, Zugriffszeit, 
etc., wie dies dem Fachmann alles bekannt ist. Im Gegensatz zu bekannten 
Inoden, die eine Mehrzahl von Blocknummem unterschiedlicher Umwe- 
geebenen aufweisen, ist die platteninteme Inode 310 anders. Durch Halten 

20 samtlicher Blocknummemeintrage 31 OB innerhalb einer Inode 310 auf 
gleicher Umwegeebene wird die Implementierung des Dateisystems ver- 
einfacht. 

Fur eine kleine Datei mit einer Gr6Be von 64 Bytes oder weniger werden 
25 Daten direkt in der Inode selbst anstatt in Form von 16 Blocknummem 
gespeichert. Figur 4A ist ein Diagramm, das eine Inode 410 der Ebene 0 
veranschaulicht, die der in Figur 3 gezeigten Inode 310 ahnelt. AUerdings 
enthalt die Inode 410 64 Bytes Daten 410B anstelle von 16 Blocknummem 
31 OB. Deshalb brauchen Plattenblocke bei sehr kleinen Dateien nicht zu- 
30 gewiesen zu werden. 

Fur eine Datei mit einer GroCe von weniger als 64 KB nimmt jede der 16 
Blocknummem direkt auf einen 4-KB-Datenblock Bezug. Figur 4B ist ein 
Diagramm, welches eine Inode 310 der Ebene 1 mit 16 Blocknummem 
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31 OB veranschaulicht. Die Blocknummemeintrage 0-15 verweisen auf 
entsprechende 4-KB-Datenbl6cke 420A-420C. 

Fiir eine Datei mit einer GroBe, die gleich oder groBer ist als 64 KB und 
5 kleiner als 64 MB ist, nimmt jede der 16 Blocknummem Bezug auf einen 
einfach-indirekten Block. Seinerseits enthalt jeder einzeln indirekte 4-KB- 
Block 1024 Blocknummem, die 4 KB-Datenblocke referenzieren. Figur 
4C ist ein Diagramm, welches eine Inode der Ebene 4, 310, veranschau- 
licht, welche 16 Blocknummem 31 OB enthalt, die 16 einfach-indirekte 
10 Blocke 430A-430C referenzieren. Wie in Figur 4C gezeigt ist, zeigt der 
Blocknummemeintrag 0 auf einen einfach-indirekten Block 430A. Der 
einfach-indirekte Block 430 A enthalt 1024 Blocknununem, die auf 4-KB- 
Datenblocke 440A-440C Bezug nehmen. In ahnlicher Weise kann jeder 
einfach-indirekte Block 430B-430C jeweils bis zu 1024 Datenblocke 
15 adressieren. 

Bei einer DateigroBe von mehr als 64 MB referenzieren die 16 Block- 
nimmaem der Inode doppelt-indirekte Blocke. Jeder doppelt-indirekte 4- 
KB-Block enthalt 1024 Blocknummem, die auf entsprechende einfach- 

20 indirekte Blocke verweisen. Jeder einfach-indirekte Block wiederum ent- 
halt 1024 Blocknummem, die auf 4-KB-Datenbl6cke zeigen. Auf diese 
Weise lassen sich bis zu 64 GB adressieren. Figur 4D ist ein Diagramm 
einer Inode 310 der Ebene 3, die 16 Blocknununem 310B enthalt, wobei 
Blocknummemeintrage 0, 1 imd 15 auf doppelt-indirekte Bl5cke 470A, 

25 470B und 470C verweisen. Der doppelt-indirekte Block 470A enthalt 1024 
Blocknummemeintrage 0-1023, die auf 1024 einfach-indirekte Bl5cke 
480A-480B zeigen. Jeder einfach-indirekte Block 480A-480B wiederum 
referenziert 1024 Datenblocke. Wie in Figur 4D gezeigt ist, referenziert 
der einfach-indirekte Block 480A 1024 Datenblocke 490A-490C, und der 

30 einfach-indirekte Block 480B nimmt Bezug auf 1024 Datenblocke 490C- 
490F. 
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WAFL-inteme Inoden 



Figur 8 ist ein Blockdiagramm, das eine WAFL-inteme Inode 820 veran- 
schaulicht. Die interne Inode 820 enthalt die Information der platteninter- 
nen Inode 310 (dargestellt in Figur 3), eine WAFL-Puffer-Datenstruktur 
820A, auBerdem 16 Pufferzeiger 820B. Eine WAFL-inteme Inode besitzt 
eine GroBe von 300 Bytes. Ein WAFL-Puffer ist ein 4 KB umfassendes 
(speicher-)intemes Aquivalent der 4-KB-Bl6cke, die auf der Platte gespei- 
chert sind. Die Intem-Inode 820 unterscheidet sich von herkonunlichen 
Inoden, welche Puffer mit unterschiedlichen Umwegeebenen referenzie- 
ren. Jede Intern- WAFL-Inode 820 zeigt auf 16 Puffer mit gleicher Umwe- 
geebene. Ein Pufferzeiger hat eine Lange von 4 Bytes. Indem man samtli- 
che Pufferzeiger 820B in eine Inode 820 auf der gleichen Umwegeebene 
halt, vereinfacht man die Dateisystem-Implementierung. Die Intem-Inode 
820 enthalt auBerdem Intem-Information 820C, umfassend ein „Unsau- 
ber"-Flag, ein Inkonsistenzpunkt-Flag (IN_CP) sowie Zeiger fur eine Ver- 
kniipfimgsliste. Das Unsauber-Flag gibt an, daB die Inode selbst modifi- 
ziert wurde oder daB sie Puffer referenziert, welche ihrerseits geandert 
vmrden. Das IN_CP-FIag dient zum Markieren einer hiode als in einem 
Konsistenzpunkt befindlich (wird unten beschrieben). Die Zeiger fur eine 
verknupfle Liste werden unten beschrieben. 



Figur 10 ist ein Diagramm, welches eine Datei veranschaulicht, die durch 
eine WAFL-Inode 1010 referenziert wird. Die Datei enthSlt indirekte 
WAFL-Puffer 1020-1024 und direkte WAFL-Pufifer 1030-1034: die 
WAFL-Intera-Inode 1010 enthalt Standard-Inoden-Information lOlOA 
(einschlieBlich eines Zahlers fiir unsaubere Puffer), eine WAFL- 
Pufferdatenstruktur lOlOB, 16 Pufferzeiger lOlOC und eine standardmaBi- 
ge platteninteme Inode lOlOD. Die interne WAFL-Inode 1010 hat eine 
GroBe von etwa 300 Bytes. Die platteninteme Inode hat eine GroBe von 
128 Bytes. Die WAFL-Pufferdatenstruktur lOlOB umfaBt zwei Zeiger, von 
denen der erste die 16 Pufferzeiger 10 IOC und der zweite platteninteme 
Blocknummem lOlOD referenziert. 
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Jede Inode 1010 besitzt eine Zahlung von iinsauberen Puffem, auf die sie 
Bezug nimmt. Eine Inode 1010 kann in die Liste unsauberer Inoden 
und/oder die Liste von Inoden eingegeben werden, welche imsaubere Puf- 
fer aufweisen. Wenn samtliche von einer Inode referenzierten unsauberen 

5 Puffer fur die Aufzeichnung auf Platte vorgesehen sind oder auf Platte auf- 
gezeichnet werden, wird die Zahlung der unsauberen Puffer fur Inode 1010 
auf Null gesetzt. Die Inode 1010 wird dann entsprechend ihrem Flag neu in 
Warteschlange gestellt (das heiBt in diesem Fall gibt es keine unsauberen 
Puffer), Diese Inode 1010 wird geloscht, bevor die nachste Inode verarbei- 

10 tet wird. AuBerdem wird das Flag der Inode geloscht, welches angibt, daJJ 
die Inode sich in einem Konsistenzpunkt befindet Die Inode 1010 selbst 
wird in einem Konsistenzpunkt auf Platte geschrieben. 

Die WAFL-Pufferstruktur ist dargestellt durch einen indirekten WAFL- 
15 Puffer 1020. Der WAFL-Puffer 1020 enthalt eine WAFL- 
Pufferdatenstruktur 1020A, einen 4-KB-Puffer 1020B mit 1024 WAFL- 
Pufferzeigem und einen 4-KB-Puffer 1020C mit 1024 plattenintemen 
Blocknummem. Die WAFL-Pufferdatenstniktur hat eine GroBe von 56 
Bytes und enthalt zwei Zeiger. Ein Zeiger der WAFL-Pufferdatenstruktur 
20 1020 A referenziert den 4-KB-Puffer 1020B, und ein zweiter Zeiger refe- 
renziert den Puffer 1020C. In Figur 10 zeigen die 16 Pufferzeiger lOlOC 
der WAFL-Inode 1010 auf die 16 einfach-indirekten WAFL-PufiFer 1020- 
1024. Der WAFL-Puffer 1020 wiederum referenziert 1024 direkte WAFL- 
Pufiferstrukturen 1030-1034, Der WAFL-Puffer 1030 steht reprasentativ 
25 fiir direkte WAFL-Puffer. 

Der direkte WAFL-Puffer 1030 enthalt eine WAFL-PufFerdatenstruktur 
1030A und einen 4-KB-Direktpuffer 103 OB, der eine gecachete Version 
eines entsprechenden plattenintemen 4-KB-Datenblocks enthalt. Der direk- 
30 te WAFL-Puffer 1030 enthalt nicht einen 4-KB-Puffer wie den Puffer 
1020C des Indirekt-WAFL-Puffers 1020. Der zweite Pufferzeiger der 
WAFL-Pufferdatenstruktur 1030A wird auf Null gesetzt und zeigt daher 
nicht auf einen zweiten 4-KB-Puffer. Dies verhindert eine nicht effiziente 



Verwendung von Speicher, da ansonsten Speicherbereich fiir einen unbe- 
nutzten Puffer bereitgestellt wiirde. 



In einem WAFL-Dateisystem, wie es in Figur 10 gezeigt ist, referenziert 
eine interne WAFL-Inodenstruktur 1010 einen Baum von WAFL- 
Pufferstnikturen 1020-1024 und 1030-1034. Dieser ahnelt einem Baum 
von plattenintemen Blocken, die durch Standard-Inoden referenziert wer- 
den, welche Blocknummem aufweisen, die auf indirekte und/oder direkte 
Blocke zeigen. Damit enthalt die WAFL-Inode 1010 nicht nur die 16 Vo- 
lumen-Blocknummem enthaltende platteninteme Inode lOlOD, sondem 
enthalt auBerdem 16 Pufferzeiger 101 OC, welche auf WAFL- 
Pufferstrukhiren 1020-1024 und 1030-1034 zeigen. WAFL-Puffer 1030- 
1034 enthalten gecachete Inhalte von Blocken, die durch Volumen- 
Blockniunmem referenziert werden. 



Die WAFL-Intem-Inode 1010 enthalt 16 Pufferzeiger lOlOC. Ihrerseits 
werden die 16 Pufferzeiger lOlOC durch eine WAFL-Pufferstruktur lOlOB 
referenziert, die die Wuizel fur den Baum aus WAFL-Puffem 1020-1024 
und 1030-1034 bildet. Somit enthalt jede WAFL-Inode 1010 eine WAFL- 
I^ifferstruktur lOlOB, die auf die 16 Pufferzeiger lOlOC innerhalb der 
Inode 1010 zeigt. Dies erleichtert die rekursive Implementienmg von Al- 
gorithmen zum Handhaben von Puffer-Baumen. Wenn die 16 Pufferzeiger 
101 OC innerhalb der Inode 1010 nicht durch eine WAFL-Pufferstruktur 
101 OB reprasentiert wurden, lieBe sich der rekursive Algorithmus zum 
Bearbeiten des gesamten Baums von Puffem 1020-1024 und 1030-1034 
nur schwer implementieren. 

Figuren 9A-9D sind Diagramme, die Inoden mit unterschiedlichcn Umwe- 
geebenen zeigen. In Figuren 9A-9D sind zur Darstellung der Indirektbeit 
Oder der Umwege indirekte und direkte WAFL-Puffer dargestellt. Aller- 
dings soUte gesehen werden, daB die WAFL-Puffer in Figur 9 entspre- 
chende indirekte oder direkte Puffer aus Figur 10 reprSsentieren. Bei einer 
kleinen Datei mit einer Gr5Be von 64 Bytes oder weniger werden Daten 
direkt in der Inode selbst gespeichert, und nicht die 16 Pufferzeiger. Figur 
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9A ist ein Diagramm, das eine Inode 820 der Ebene Null veranschaulicht, 
bei der es sich um die gleiche Inode handelt wie die Inode 820 in Figur 8, 
nur daB die Inode 820 an Stelle von 16 Pufferzeigem 820B nunmehr 64 
Datenbytes 920B enthalt, Deshalb werden bei sehr kleinen Dateien keine 
5 zusatzlichen Puffer zugewiesen. 

Bei einer Datei mit einer GroBe von weniger als 64 KB referenziert jeder 
der 16 Pufferzeiger direkt einen direkten 4-KB-WAFL-Puffer. Figur 9B ist 
ein Diagranun einer Inode 820 der Ebene 1 mit 16 Pufferzeigem 820B. Die 
10 Pufferzeiger PTR0-PTR15 zeigen auf entsprecbende direkte 4-KB-WAFL- 
Puffer 922A-922C. 

Bei einer Datei, die groBer oder gleich 64 KB und kleiner als 64 MB ist, 
referenziert jeder der 16 Pufferzeiger einen einfach-indirekten WAFL- 

15 Puffer. Jeder einfach-indirekte 4-KB-WAFL-Puffer seinerseits xraifaBt 
1024 Pufferzeiger, welche 4-KB-Direkt-WAFL-Puffer referenzieren. Figur 
9C ist ein Diagramm einer Inode 820 der Ebene 2 mit 16 Pufferzeigem 
820B, welche 16 einfach-indirekte WAFL-Puffer 930A-930C referenzie- 
ren. GemaB Figur 9C zeigt der Pufferzeiger PTRO auf einen einfach- 

20 indirekten WAFL-Puffer 930A. Der einfach-indirekte WAFL-Puffer 930A 
enthalt 1024 Zeiger, die 4-KB-Direkt-WAFL-Puffer 940A-940C referen- 
zieren. In ahnlicher Weise k5rmen einfach-indirekte WAFL-Puffer 930B- 
930C jeweils bis zu 1024 direkte WAFL-Puffer adressieren. 

25 Bei einer Dateigr56e von mehr als 64 MB referenzieren die 16 Pufferzei- 
ger der Inode doppelt-indirekte WAFL-Puffer. Jeder 4 KB umfassende, 
doppelt-indirekte WAFL-Puffer enthalt 1024 Zeiger, die auf zugeharige 
einfach-indirekte WAFL-Puffer zeigen. Jeder einfach-indirekte WAFL- 
Puffer seinerseits umfaBt 1024 Zeiger, die auf direkte 4 KB-WAFL-Puffer 

30 zeigen. Damit konnen bis zu 64 GB adressiert werden. Figur 9D ist ein 
Diagramm einer Inode 820 der Ebene 3 mit 16 Zeigem 820B, wobei Zei- 
ger PTRO, PTRl und PTR15 doppelt-indirekte WAFL-Puffer 970A, 970B 
bzw. 970C referenzieren, Der doppelt-indirekte WAFL-Puffer 970A ent- 
halt 1024 Zeiger, die auf 1024 einfach-indirekte WAFL-Puffer 980A-980B 
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zeigen. Jeder einfach-indirekte WAFL-Puffer 980A-980B wiedemm refe- 
renziert 1024 direkte WAFL-Puffer. Wie in Figur 9D zu sehen ist, referen- 
ziert der einfach-indirekte WAFL-Puffer 980A 1024 direkte WAFL-Puffer 
990A-990C, und der einfach-indirekte WAFL-Puffer 980B referenziert 
1024 direkte WAFL-Puffer 990D-990F. 

Verzeichnisse 

Verzeichnisse innerhalb des WAFL-Systems sind in 4-KB-Bl6cken ge- 
speichert, welche in zwei Abschnitte aufgeteilt sind. Figur 14 ist ein Dia- 
gramm, das einen Verzeichnisblock 1410 gemaB der Erfindung ' veran- 
schaulicht. Jeder Verzeichnisblock 1410 enthalt einen ersten Abschnitt 
1410A mit Verzeichniseintrag-Strukturen 1412-1414 fester Lange, und 
einen zweiten Abschnitt 1410B, der die aktuellen Verzeichnisnamen 1416- 
1418 enthalt. Jeder Verzeichniseintrag enthalt auBerdem eine Datei-ID, das 
heiBt eine Datei-Kennung und eine Generation. Diese Information kenn- 
zeichnet, welche Datei der Eintrag referenziert. Diese Information ist im 
Stand der Technik bekannt und deshalb in Figur 14 nicht dargestellt. Jeder 
Eintrag 1412-1414 im ersten Abschnitt 1410A des Verzeichnisblocks be- 
sitzt einen Zeiger auf seinen Namen innerhalb des zweiten Abschnitts 
1410B. AuBerdem enthalt jeder Eintrag 1412-1414 einen Hash-Wert, ab- 
hangig von seinem Namen in dem zweiten Abschnitt 141 OB, so daB der 
Name nur untersucht wird, wenn es zu einem Hash-Treffer (einer Hash- 
Ubereinstimmung) kommt. Beispielsweise enthalt der Eintrag 1412 des 
ersten Abschnitts 1410A einen Hash-Wert 1412A und einen Zeiger 1412B. 
Der Hash-Wert 1412A ist ein Wert, der von dem Verzeichnis-Namen 
„VERZEICHNIS_ABC' abhSngt, der in dem Eintrag variabler LSnge 1416 
des zweiten Abschnitts 1410B abgespeichert ist Der Zeiger 1412B des 
Eintrags 1410 zeigt auf den Eintrag variabler Lange, 1416, des zweiten 
Abschnitts 141 OB. Unter Verwendung von Veizeichniseintragen fester 
Lange, 1412-1414 in dem ersten Abschnitt 1410A beschleunigt sich der 
Vorgang des Namen-Nachschauens. Zum Auffmden des nachsten Eintrags 
innerhalb eines Verzeichnisblocks 1410 ist keine Rechnung erforderlich. 
Durch Halten der Eintrage 1412-1414 in dem ersten Abschnitt 1410A auf 
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einem kleinen Wert verbessert sich die Trefferrate fur Dateisysteme mit 
einem Zeilenfuller-Datencache. 

Meta-Daten 

5 

WAFL fuhrt Information, die ein Dateisystem in Dateien beschreibt, weU 
che als Meta-Daten bekannt sind. Meta-Daten umfassen eine Inodendatei, 
eine inomap-Datei iind eine blkmap-Datei. WAFL speichert seine Meta- 
Daten in Dateien, die irgendwo auf einer Platte aufgezeichnet werden k5n- 
10 nen. Weil samtliche WAFL-Meta-Daten in Dateien gefiihrt werden, lassen 
sie sich an eine beliebe Stelle schreiben, so wie jede andere Datei inner- 
halb der Datenbank. 

Eine erste Metadaten-Datei ist die ,Jnodendatei", die Inoden enthalt, wel- 

15 che samtliche anderen Dateien innerhalb der Datenbank beschreiben. Figur 
12 ist ein Diagramm eiher Inodendatei 1210. Die Inodendatei 1210 kann 
irgendwo anf einer Platte aiifgezeichnet werden, im Gegensatz zu bekann- 
ten Systemen, welche ,Jnodentabellen" auf eine feste Stelle der Platte 
schreiben. Die Inodendatei 1210 enthalt eine Inode 1210A-1210F fur jede 

20 Datei innerhalb des Dateisy stems, ausgenommen die Inodendatei 1210 
selbst. Gezeigt wird auf die Inodendatei 1210 durch eine als die „Wurzeli- 
node" bezeichnete Inode. Die Wurzelinode wird an einer festen Stelle auf 
der Platte gehalten, bezeichnet als weiter unten noch zu beschreibender 
Dateisysteminforniationsblock(fsinfo-Block). Die Inodendatei 1210 selbst 

25 ist in 4-KB-Blocken auf der Platte (oder 4-KB-Puffem im Speicher) abge- 
speichert. Figur 12 veranschaulicht, daB Inoden 1210A-1210C in einem 4- 
KB-PufiFer 1220 gespeichert sind. Fur GroBen von plattenintemen Inoden 
von 128 Bytes umfaBt ein 4-KB-Pufrer (oder Block) 32 Inoden. Die Intem- 
Inodendatei 1210 setzt sich zusammen aus WAFL-Puffem 1220. Wetm 

30 eine Intem-Inode (das heiBt 1210A) geladen wird, wird der platteninteme 
Inodenteil der Intem-lnode 1210A fur den Puffer 1220 der Inodendatei 
1210 einkopiert. Die Pufferdaten selbst werden von der Platte her geladen. 
Das Schreiben von Daten auf die Platte erfolgt in umgekehrter Reihenfol- 
ge. Die Intem-Inode 1210A, die eine Kopie der plattenintemen Inode ist. 
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wird in den entsprechenden Puffer 1220 der Inodendatei 1210 kopiert. An- 
schlieBend wird die Inodendatei 1210 ffir das Schreiben zugewiesen, und 
die in dem Puffer 1220 der Inodendatei 1210 gespeicherten Daten werden 
auf die Platte geschrieben. 

Eine weitere Metadaten-Datei ist die ,31ockabbild"-Datei (blkmap-Datei). 
Figur llA ist ein Diagramm, welches eine blkmap-Datei 1110 zeigt. Die 
blkmap-Datei 1110 enthalt einen 32 Bits umfassenden Eintrag lllOA- 
lllOC fiir jeden 4-KB-Block innerhalb des Plattenlaufwerksystems. Sic 
dient auBerdem als Abbilddatei fiir freie Bl5cke. Die blkmap-Datei 1110 
gibt an, ob ein Plattenblock belegt wurde oder nicht. Figur 1 IB ist ein Dia- 
gramm eines Blockeintrags lllOA der blkmap-Datei 1110 (dargestellt in 
Figur 11 A). Wie in Figur IIB gezeigt ist, umfaBt der Eintrag lllOA 32 
Bits (BIT0-BIT31). Bit 0 (BITO) des Eintrags lUOA ist das Aktiv- 
Dateisystem-Bit (FS-Bit). Das FS-Bit des Eintrags lllOA gibt an, ob der 
entsprechende Block Teil des aktiven Dateisystems ist oder nicht. Die Bits 
1-20 (Bm-BIT20) des Eintrags lllOA sind Bits, welche angeben, ob der 
Block Teil eines entsprechenden Schnappschusses (Zwischensicherung) 1- 
20 ist. Die nachsten oberen 10 Bits (BIT21-BIT30) sind reserviert. Bit 31 
(BIT31) ist das Konsistenzpunkt-Bit (CP-BIT) des Eintrags 1 1 lOA. 

Ein Block ist als ein fireier Block in dem Dateisystem dann verfugbar, 
wenn samUiche Bits (BIT0-BIT31) in dem 32 Bit umfassenden Eintrag 
1 1 lOA fiir den Block geloscht sind (auf einen Wert 0 zuruckgesetzt). Figur 
1 IC ist ein Diagramm, welches den Eintrag 1 11 OA der Figur 1 lA veran- 
schaulicht, wenn dieser anzeigt, dafi der Plattenblock frei ist. Demnach ist 
der durch den Eintrag 1 1 lOA der blkmap-Datei 1110 referenzierte Block 
dann frei, wenn die Bits 0-31 (BIT0-BIT31) samtlich einen Wert 0 haben. 
Figur 1 ID ist ein Diagramm, welches den Eintrag 1 1 lOA der Figur 1 1 A in 
dem Zustand zeigt, in welchem er einen belegten Block in dem aktiven 
Dateisystem angibt. Wenn das Bit 0 (BITO), auch als FS-Bit bezeichnet, 
auf einen Wert 1 gesetzt ist, kennzeichnet der Eintrag 1 1 lOA der blkmap- 
Datei 1110 einen Block, der Teil des aktiven Dateisystems ist. Bits 1-20 
(BIT1-B1T20) dienen zum Anzeigen entsprechender Schnappschusse, falls 
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vorhanden, die den Block referenzieren. Schnappschusse werden unten im 
einzelnen erlautert. Wenn das Bit 0 (BITO) auf einen Wert 0 gesetzt ist, so 
zeigt dies nicht unbedingt an, daB der Block fur die Belegung zur Verfu- 
gung steht. Samtliche SchnappschuC-Bits mussen 0 sein, damit der Block 
5 zugewiesen werden kann. Bit 31 (BIT31) des Eintrags lllOA hat stets 
denselben Zustand als Bit 0 (BITO) auf der Platte, wird aber, wenn er in 
das Speicherbit 31 (BITSl) geladen wird, zur Buchfuhrung als Teil eines 
Konsistenzpunkts verwendet. 

10 Eine weitere Metadaten-Datei ist die „Inodenabbild"-Datei (inomaj)- 
Datei), die als ein Abbild fiir freie Inoden dient. Figur 13 A ist ein Dia- 
granun, welches eine Inodenabbild-Datei veranschaulicht. Die inomap- 
Datei 1310 enthalt einen 8 Bits umfassenden Eintrag 1310A-1310C fur 
jeden Block innerhalb der in Figur 12 gezeigten Inoden-Datei 1210. Jeder 

15 Eintrag 1310A-1310C ist eine Zahlung zugeordneter oder belegter Inoden 
in dem entsprechenden Block innerhalb der Inoden-Datei 1210. Figur 13A 
zeigt Werte 32,5 bzw. 0 in den Eintragen 1310A-1310C. Die Inoden-Datei 
1210 muB noch inspiziert werden, um heraiiszufinden, welche Inoden in 
dem Block frei sind, dies erfordert jedoch nicht das Umladen groBerer 

20 Mengen beliebiger Blocke von der Platte in den Speicher. Da jeder 4-KB- 
Block 1220 der Inodendatei 1210 32 Inoden aufimnmt, kann der 8 Bits 
umfassende inomap-Eintrag 1310A-131OC fur jeden Block in der Inoden- 
Datei 1210 Werte annehmen, die zwischen 0 und 32 liegen. Wenn ein 
Block 1220 einer Inoden-Datei 1210 keine Inoden im Gebrauch hat, so ist 

25 der Eintrag 1310A-1310C fur ihn innerhalb der Inomap-Datei 1310 „0". 
Wenn samtliche Inoden in dem Block 1220 der Inodendatei 1210 im Ge- 
brauch sind, hat der Eintrag 1310A-1310C der inomap-Datei 1310 einen 
Wert 32. 

30 Figur 13B ist ein Diagramm, das eine inomap-Datei 1350 veranschaulicht, 
welche die 4-KB-B16cke 1340A-1340C der Inoden-Datei 1340 referen- 
ziert. Beispielsweise speichert die Inoden-Datei 1340 37 Inoden in drei 4- 
KB-Blocken 1340A-1340C. Blocke 1340A-1340C der Inoden-Datei 1340 
enthalten 32,5 bzw. 0 veiwendete Inoden. Eintrage 1350A-1350C der 
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blkmap-Datei 1350 referenzieren Blocke 1340A-1340C der Inoden-Datei 
1340. Damit haben die EintrSge 1350A-1350C der inomap-Datei Werte 
von 32,5 und 0 ftir Blocke 1340A-1340C der Inoden-Datei 1340. Die Ein- 
trage 1350A-1350C der inomap-Datei wiederum kennzeichnen 0,27 bzw. 
32 freie Inoden in den Blocken 1340A-1340C der Inoden-Datei 1340. 

Bezugnehmend auf Figur 13 ist die Verwendung einer bitweisen Moment- 
aufhahme fur die Eintrage 1310A-1310C der inomap-Datei 1310 an Stelle 
von Zahlwerten deshalb von Nachteil, weil vier Bytes pro Eintrag 1310A- 
13 IOC fur den Block 1220 der Inoden-Datei 1210 (in Figur 12 dargestellt), 
und nicht nur ein Byte erforderlich waren. Freie Inoden im Block bzw. in 
den Blocken 1220 der Inoden-Datei 1210 mussen innerhalb der inomap- 
Datei 1310 deshalb nicht angezeigt werden, weil die Inoden selbst diese 
Information entfaalten. 



Figur 15 ist ein Diagramm, welches eine Dateisysteminformationsstniktur 
(fsinfo) 1510 veranschaulicht. Die WurzeUnode 1510B eines Dateisystems 
wird an einer festen Stelle auf der Platte gehalten, so dafi sie beim Booten 
des Dateisystems geortet werden kann. Der fsinfo-BIock ist keine Metada- 
ten-Datei, sondem Teil des WAFL-Systems. Die Wurzelinode 151 OB ist 
eine Inode, die auf die Inoden-Datei 1210 Bezug nimmt. Sie ist Teil der 
Dateisysteminformationsstruktur (fsinfo) 1510, die auBerdem Information 
1510A einschliefilich der Anzahl von Blocken in dem Dateisystem, die 
Entstehungszeit des Dateisystems etc. enthSlt. Die vennischte Information 
1510A enthalt auBerdem eine Prufsumme 15 IOC (diese wird unten noch 
beschrieben). Mit Ausnahme der Wurzelinode 151 OB selbst kann diese 
Information 15 IDA in einer Metadaten-Datei einer anderen Ausfuhrungs- 
form gehalten werden. In festen Platzen auf der Platte werden zwei identi- 
sche Kopien der fsinfo-Struktur 1510 gehalten. 

Figur 16 ist ein Diagramm, welches das WAFL-Dateisystem 1670 in ei- 
nem konsistenten Zustand auf einer Platte mit zwei fsinfo-Blocken 1610 
und 1612, einer Inoden-Datei 1620, einer blkmap-Datei 1630, einer ino- 
map-Datei 1640, einem Wurzelverzeichnis 1650 und einer typischen Datei 
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(oder einem Verzeichnis) 1660 zeigt. Die Inoden-Datei 1620 besteht aus 
mehreren Inoden 1620A-1620D, welche andere Dateien 1630-1660 in dem 
Dateisystem 1670 referenzieren. Die Inode 1620 A der Inoden-Datei 1620 
referenziert die bIkmap-Datei 1630. Die Inode 1620B referenziert die ino- 
5 map-Datei 1640. Die Inode 1620C referenziert das Wnrzelverzeichnis 
1650. Die Inode 1620D referenziert eine typische Datei (oder ein typisches 
Verzeichnis) 1660. Somit zeigt die Inoden-Datei auf samtliche Dateien 
1630-1660 innerhalb des Dateisystems 1670, ausgenonunen die fsinfo- 
Bldcke 1610 und 1612. Die fsinfo-Bldcke 1610 und 1612 enthalten jeweils 

10 eine Kopie 1610B bzw. 1612B der Inode der Inoden-Datei 1620. Weil die 
Wurzelinode 1610B und 1612B der fsinfo-Blocke 1610 und 1612 die Ino- 
den-Datei 1620 beschreibt, die ihrerseits den Rest der Dateien 1630-1660 
in dem Dateisystem 1670 einschlieBlich sSmtlicher Metadaten-Dateien 
1630-1640 beschreibt, wird die Wurzelinode 1610B und 1612B als die 

15 Wtirzel eines Baums von Bl5cken betrachtet. Das WAFL-System 1620 
yerwendet diese Baximstruktur fiir ihr Aktualisierungsverfahren (Konsi- 
stenzpimkt) und zum Implementieren von Schnappschussen, die beide im- 
ten noch beschrieben werden. 

20 Liste von Inoden mit unsauberen Blocken 

Interne WAFL-Inoden (das heiBt die WAFL-Inode 1010 gemaB Figur 10) 
des WAFL-Dateisystems werden in imterschiedlich verkhupften Listen 
entsprechend ihrem Status gehalten. Inoden, die sich auf unsaubere Blocke 

25 beziehen, werden in einer in Figur 2 gezeigten Liste fur unsaubere Inoden 
gehalten. ZxilSssige Daten enthaltende Inoden, die nicht unsauber sind, 
werden in einer separaten Liste gehalten, xmd Inoden, die keine zulassigen 
Daten auftveisen, werden in einer noch weiteren Liste gefuhrt, wie dies im 
Stand der Technik bekannt ist Die vorliegende Erfindung macht Gebrauch 

30 von einer Liste von Inoden mit imsauberen Datenblocken, was das Auffin- 
den samtlicher Inoden erleichtert, bei denen Schreibzuweisungen erforder- 
lich sind. 
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Figur 2 ist ein Diagramm, das eine Liste 210 unsauberer Inoden gemSB der 
Erfindung veranschaulicht Die Liste 210 unsauberer Inoden enthait 
WAFL-inteme Inoden 220-1750. Wie in Figur 17 gezeigt ist, enthait jede 
WAFL-inteme Inode 220-250 einen Zeiger 220A-250A, der auf eine wei- 
tere Inode in der verknflpften Liste zeigt. Beispielsweise sind WAFL- 
Inoden 220-250 im Speicher an Stellen 2048, 2152, 2878, 3448 bzw. 3712 
gespeichert. Dementsprechend enthait der Zeiger 220A der Inode 220 die 
Adresse 2152. Sie verweist deshalb auf die WAFL-Inode 222. Die WAFL- 
Inode 222 wiederum zeigt mit Hilfe der Adresse 2878 auf die WAFL- 
Inode 230. Die WAFL-Inode 230 verweist auf die WAFL-Inode 240. Die 
WAFL-Inode 240 zeigt auf die Inode 1750. Der Zeiger 250 der WAFL- 
Inode 250 enthait emen NuU-Wert und zeigt daher nicht auf eine weitere 
Inode. Somit ist sie die letzte Inode inneiiialb der Liste 210 fur unsaubere 
Inoden. Jede Inode in der Liste 210 reprasentiert eine Datei aus einem 
Baum von Pufifem, wie dies in Figur 10 dargestellt ist Mindestens einer 
der von jeder Inode 220-250 referenzierte Puffer ist ein unsauberer Puffer. 
Ein unsauberer Puffer enthait modifizierte Daten, die auf eine neue Spei- 
cheiplattenstelle in dem WAFL-System geschrieben warden mussen. 
WAFL schreibt stets unsaubere Puffer auf neue Speicherstellen der Platte. 

KONSISTENZPUNKTE 

Die WAFL-Plattenstruktur, wie sie bisher beschrieben wurde, ist statisch. 
Erfindimgsgemafi werden Anderungen des Datei^stems 1670 streng ge- 
steuert, um das Dateisystem 1670 in einem konsistenten Zustand zu halten. 
Das Dateisystem 1670 schreitet von einem selbstkonsistenten Zustand zu 
einem anderen selbstkonsistenten Zustand weiter. Die Menge (oder der 
Baum) selbstkonsistenter Bl6cke auf der Platte mit ihrem Ursprung in der 
Wurzelinode 1510B wird als Konsistenzpunkt (CP) referenziert. Um Kon- 
sistenzpunkte zu implementieren, schreibt WAFL stets neue Daten in 
nicht-zugewiesene Blocke auf der Platte. Es uberschreibt niemals existie- 
rende Daten. Solange also die Wurzelinode 1510B nicht aktualisiert ist, 
andert sich der Zustand des Dateisystems 1670, wie er sich auf der Platte 
darstellt, nicht. Damit das Dateisystem 1670 aber brauchbar ist, muB es 
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gelegentlich auf neu geschriebene Daten Bezug nehmen, und deshalb muB 
dann ein neuer Konsistenzpunkt geschrieben werden. 

Bezugnehmend auf Figur 16, wird ein neuer Konsistenzpunkt dadurch ge- 
5 schrieben, daB zunachst samtliche Dateisystem-Blocke auf neue Stellen 
der Flatten umgeraumt werden (einschlieBlich der Blocke in Metadaten- 
Dateien, so wie die Inoden-Datei 1620, die blkmap-Datei 1630 und die 
inomap-Datei 1640). Eine neue Wurzelinode 1610B und 1612B fur das 
Dateisystem 1670 wird dann auf die Flatte geschrieben. Mit diesem Ver- 
io fahren zur automatischen Aktualisieriing eines Dateisystems ist das plat- 
teninterne Dateisystem niemals inkonsistent Das platteninteme Dateisy- 
stem 1670 reflektiert einen alten Konsistenzpunkt, bis die Wurzelinode 
1610B und 1612B geschrieben ist. Unmittelbar nach dem Schreiben der 
Wurzelinode 1610B und 1612B auf die Platte reflektiert das Dateisystem 
15 1670 einen neuen Konsistenzpxmkt. Datenstrukturen des Dateisystems 
1670 konnen in beliebiger Reihenfolge aktualisiert werden, es gibt keiner- 
lei Ordnungsbeschrankxmgen bei plattenintemen Schreibvorgangen, aus- 
genommen das eine Erfordemis, gemaB dem samtliche Blocke in dem Da- 
teisystem 1670 auf die Flatte geschrieben werden miissen, bevor die Wur- 
20 zelinode 1 6 1 OB imd 1 6 1 2B aktualisiert wird. 

Um in einen neuen Konsistenzpunkt imigewandelt werden zu konnen, muB 
die Wurzelinode 161 OB und 1612B zuverlassig imd elementar aktualisiert 
werden. WAFL tut dies dadurch, daB zwei identische Kopien der fsinfo- 

25 Struktur 1610 xmd 1612 gehalten werden, welche die Wurzelinode 1610B 
und 1612B enthalten. Wahrend der Aktualisiemng der Wurzelinode 161 OB 
und 1612B wird eine Kopie der fsinfo-Struktur 1610 auf die Platte ge- 
schrieben, anschlieBend wird die zweite Kopie der fsinfo-Struktur 1612 
geschrieben. Eine Prufsumme 1610C tmd 1612C in der fsinfo-Struktur 

30 1610 bzw. 1612 dient zum Feststellen des Auftretens eines Systemzusam- 
menbruchs, welches eine der Kopien der fsinfo-Struktur 1610 oder 1612, 
die jeweils eine Kopie der Wurzelinode enthalten, beim Schreiben auf die 
Platte verfalscht Noraialerweise sind die beiden fsinfo-Strukturen 1610 
imd 1612 identisch. 
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Algorit hmus zum Erzeugen eines Konsistenzp unkts 

Figur 5 ist ein Diagramm, welches das Verfahren zum Erzeugen eines 
Konsistenzpunkts veranschaulicht Im Schritt 510 werden samtliche „un- 
sauberen" Inoden (also Inoden. die auf neue, modifizierte Daten enthalten- 
de Bl6cke zeigen) in dem System als im Konsistenzpunkt ihrer Inhalte 
befmdlich maridert, und es wird nur ihr jeweiliger Inhalt auf die Platte 
geschrieben. Nur wenn diese Schreibvorgange abgeschlossen sind, diirfen 
weitere Schreibvorgange aus anderen Inoden die Platte eireichen. AuBer- 
dem konnen wahrend der Zeit, in der unsaubere Schreibvorgange stattfin- 
den, keine neuen Modifikationen an Inoden vorgenommen werden, die 
sich in dem Konsistenzpimkt befinden. 

Zusatzlich zur Einstellung des Konsistenzpunkt-Flags fur samtliche unsau- 
beren Inoden, die Teil des Konsistenzpunkts sind, wird ein globales Konsi- 
stenzpunkt-Flag gesetzt, so daB seitens eines Benutzers angeforderte Ande- 
rungen sich in streng gesteuerter Weise verhalten. Nachdem das globale 
Konsistenzpunkt-Flag gesetzt ist, werden benutzerseitig angeforderte An- 
derungen, welche in dem Konsistenzpunkt befindliche Inoden beeinflus- 
sen, nicht zugelassen. AuBerdem wird nur Inoden mit gesetztem Konsi- 
stenzpunkt-Flag Plattenspeicherplatz fur ihre unsauberen Blocke zugewie- 
sen. Folglich wird der Zustand des Dateisystems auf die Platte geraumt, 
genauso, wie dies zu Beginn des Konsistenzpunkts geschah. 

Im Schritt 520 werden regulare Dateien auf Platte geraumt. Das Raumen 
regularer Dateien umfaBt den Schritt des Zuweisens von Plattenspeicher- 
platz fiir unsaubere Bldcke in den reguiaren Dateien, auBerdem das Schrei- 
ben der entsprechenden WAFL-Puffer auf die Platte. Die Inoden selbst 
werden anschlieBend in die Inoden-Datei geraumt (kopiert). Samtliche 
Inoden, die zu beschreiben sind, befinden sich entweder in der Liste von 
Inoden mit unsauberen Puffem oder in der Liste von Inoden, die unsauber 
sind, jedoch keine unsauberen Puffer enthalten. Wenn der Schritt 520 ab- 
geschlossen ist, gibt es keine weiteren regularen Inoden in dem Konsi- 
stenzpunkt, und samtliche ankommenden E/A-Anforderungen verlaufen 
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erfolgreich, es sei denn, die Anfordeningen verwenden Puffer, die fur Plat- 
ten-E/A-Operationen noch gesperrt sind. 

Im Schritt 530 werden Spezialdateien auf die Platte geraumt. Das Raumen ? 
5 von Spezialdateien umfafit den Schritt des Zuordnens von Plattenspeicher- 
platz fur unsaubere Blocke in den beiden Spezialdateien: die Inoden-Datei 
and die blkmap-Datei, das Aktualisieren des Konsistenzbits (CP-Bit), da- 
mit Ubereinstimmimg mit dem aktiven Dateisystem-Bit (FS-Bit) fur jeden 
Eintrag in der blkmap-Datei herrscht, und anschliefiendes Einschreiben der 

10 Blocke in die Platte. Die Schreibzuordnung der Inoden-Datei und der 
blkmap-Datei ist deshalb kompliziert, weil der Vorgang ihrer Schreibzu- 
weisung die Dateien selbst andert. Somit werden im Schritt 530 Schreib- 
vorgange gesperrt, wahrend diese Dateien geandert werden, um zu verhin- 
dem, daB wichtige Blocke fiir Platten-E/A-Operationen gesperrt werden, 

15 bevor die Anderungen abgeschlossen sind. 

Im Schritt 530 werden aufierdem die xmten noch beschriebenen Schritte 
des Erzeugens imd Loschens von Schnappschiissen durchgefuhrt, da dies 
der einzige zeitliche Punkt ist, zu welchem das Dateisystem — ausgenom- J 
20 men den fsinfo-Block — voUstandig selbstkonsistent ist und gerade dabei 
ist, auf die Platte geschrieben zu werden. Ein SchnappschuB wird aus dem 
Dateisystem geldscht, bevor ein neuer erzeugt wird, so dafi in einem 
Diu-chgang dieselbe SchnappschuB-Inode verwendet werden kaim. 

25 Figur 6 ist ein FluQdiagramm, welches die Schritte darstellt, die der Schritt 
530 umfaBt. Schritt 530 ordnet Plattenspeicherraum fur die blkmap-Datei 
imd die Inoden-Datei zu und kopiert das aktive FS-Bit in das CP-Bit fur 
jeden Eintrag der blkmap-Datei. Dies garantiert, daB der Block in der Ino- 
den-Datei, der die Inode der blkmap-Datei enthalt, unsauber ist, so daB der 

30 Schritt 620 hierfur Plattenspeicherraum zuweist. 

Im Schritt 620 wird fur samtliche unsauberen Blocke in der Inode und den 
blkmap-Dateien Plattenspeicherplatz zugewiesen. Die unsauberen Blocke 
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enthalten den Block der Inoden-Datei, der die Inode der blkmap-Datei als 
unsauberen Block enthalt 

Im Schritt 630 wird die Inode fiir die blkmap-Datei emeut gerSumt, aller- 
dings wird diesmal die aktuelle Inode in den vorab geraumten Block in der 
Inoden-Datei geschrieben. Schritt 610 hat bereits den Block der Inoden- 
Datei verfalscht, welche die Inode der blkmap-Datei enthalt. Damit 
braucht kein weiterer Schreibzuweisungsschritt entsprechend dem Schritt 
620 geplant zu werden. 

Im Schritt 640 werden die Eintrage fur jeden Block in der blkmap-Datei 
aktualisiert. Jeder Eintrag wird dadurch aktualisiert, daB das aktive FS-Bit 
m das CP-Bit kopiert wird (das heiBt Einkopieren des Bits 0 in das Bit 3 1), 
und zwar bei samtlichen EintrSgen in unsauberen Blocken innerhalb der 
blkmap-Datei. 

Im Schritt 650 werden samtliche unsauberen Blocke in den blkmap- und 
Inoden-Dateien auf die Platte geschrieben. 

Nut fiir Eintrage in unsauberen Blocken der blkmap-Datei muB das aktive 
Dateisystem-Bit (FS-Bit) im Schritt 640 in das Konsistenzpunkt-Bit (CP- 
Bit) kopiert werden. Umnittelbar nach einem Konsistenzpimkt besitzen 
samtliche blkmap-Eintrage denselben Wert sowohl fur das aktive FS-Bit 
als auch das CP-Bit. Mit fortschreitender Zeit werden einige aktive FS-Bits 
von blkmap-Datei-Eintr9gen fiir das Dateisystem entweder geldscht oder 
gesetzt. Die Blocke der blkmap-Datei, die geanderte FS-Bits enthalten, 
werden entsprechend als unsauber markiert Wahrend des folgenden Kon- 
sistenzpunkts brauchen saubere Bldcke nicht zurQckkopiert zu werden. Die 
sauberen Bl5cke werden deshalb nicht kopiert, sie an dem vorhergehenden 
Konsistenzptmkt nicht unsauber waren und sich in den Blocken seitdem 
nichts geSndert hat. Solange also das Dateisystem zu Beginn mit dem akti- 
ven FS-Bit und dem CP-Bit gleichen Werts in samtlichen blkmap- 
Eintragen erzeugt wurde, brauchen lediglich Eintrage bei unsauberen 
Blocken in jedem Konsistenzpunkt aktualisiert zu werden. 
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Bezugnehmend auf Figur 5 wird im Schritt 540 der Dateisysteminformati- 
onsblock (Fsinfo) aktualisiert iind dann auf die Platte geraumt. Der Fsinfo- 
Block wird dadurch aktualisiert, dafi in ihn fur die Inoden-Datei eine neue 
Wurzelinode eingeschrieben wird. Der Fsinfo-Block wird zweimal ge- 
5 schrieben. Zuerst wird er an eine Stelle und dann an eine zweite Stelle ge- 
schrieben. Die zwei Schreibvorgange werden derart ausgefuhrt, daB dann, 
wenn wabrend des einen oder des anderen Schreibvorgangs ein Systemzu- 
sammenbruch erfolgt, auf der Platte ein selbstkonsistentes Dateisystem 
vorliegt. Bei einem Systemzusammenbruch wahrend des Schreibvorgangs 

10 des zweiten Fsinfo-Blocks ist dann entweder der neue Konsistenzpunkt 
verfiigbar, oder es ist der vorhergehende Konsistenzpunkt (auf der Platte 
vor Beginn des jungsten Konsistenzpunkts) vorhanden, wenn der erste 
Fsinfo-Block ausgefallen ist. Wenn das Dateisystem nach einem System- 
ausfall neu gestartet wird, wird die hochste Generationenzahlimg fur einen 

15 Konsistenzpunkt in den Fsinfo-Blocken mit einem korrekten Prufsum- 
menwert verwendet. Dies wird weiter imten noch naher erlautert. 

Im Schritt 550 wird der Konsistenzpunkt abgeschlossen. Dies macht es 
erforderlich, daB jegliche unsaubere Inoden, die, weil sie nicht Teil des 

20 Konsistenzpunkts waren, neu in die Warteschlange gestellt werden. Samt- 
liche Dioden, die ihren Zustand wahrend des Konsistenzpunkts geandert 
haben, werden in die Konsistenzpunkt-Warteschlange (CP_WAIT) ge- 
stellt. Die CP_WAIT-Warteschlange enthalt Inoden, die sich vor AbschluB 
des Schritts 540 geandert haben, jedoch nach dem Schritt 510, wenn der 

25 Konsistenzpunkt gestartet ist. Nach AbschluB des Konsistenzpunkts wer- 
den die Inoden in der CP_W AIT- Warteschlange neu eingeordnet, entspre- 
chend der regularen Liste von Dioden mit unsauberen Puffem imd der Li- 
ste von unsauberen Inoden ohne xmsaubere Puffer. 

30 Einzelordnungsbeschrankung des Konsistenzpunkts 

Wie in den Figuren 20A-20C dargestellt ist, besitzt die vorliegende Erfin- 
dimg eine Einzelordnungsbeschrankimg. Die Einzelordnungsbeschrankung 
besagt, daB der Fsinfo-Block 1810 nur auf Platte geschrieben wird, nach- 
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dem samUiche ubrigen Bl5cke auf die Platte geschrieben sind. Das Schrei- 
ben des Fsinfo-Blocks 1810 ist elementar, weil ansonsten das gesamte Da- 
teisystem 1830 verloren gehen konnte. Damit erfordert das WAFL- 
Dateisystem, daB der Fsinfo-Block 1810 auf einmal geschrieben wird und 
sich nicht in einem inkonsistenten Zustand befindet. Wie in Figur 15 ge- 
zeigt ist, enthait jeder der Fsinfo-BIocke 1810 (1510) eine Priifsumme 
15 IOC und eine Generationenzahlung 1510D. 

Figur 20A veranschaulicht das Aktualisieren der Generationenzahlung 
1810D und 1870D der Fsinfo-BIocke 1810 und 1870. Jedesmal, wenn ein 
Konsistenzpunkt (oder SchnappschxiB) ausgefiihrt wird, wird auch die Ge- 
nerationenzahlung des Fsinfo-Blocks aktualisiert. Figur 20A zeigt zwei 
Fsinfo-BIocke 1810 und 1870 mit GenerationenzShlungen 1810D und 
1870D, die den gleichen Wert N aufweisen, was einen Konsistenzpunkt fiir 
das Dateisystem angibt Beide Fsinfo-BIocke referenzieren den vorausge- 
henden Konsistenzpunkt (das alte Dateisystem auf der Platte) 1830. Eine 
neue Version des Dateisystems existiert auf der Platte und wird als neuer 
Konsistenzpunkt 1831 referenziert. Die Generationenzahlung wird bei je- 
dem Konsistenzpunkt erhSht. 

In Figur 20B wird die Generationenzahlung 1810D des ersten Fsinfo- 
Blocks 1810 aktualisiert vmd erhalt einen Wert N+1. Dann wird sie auf die 
Platte geschrieben. Figur 20B veranschaulicht einen Wert N+1 fur die Ge- 
nerationenzahlung 1810D des Fsinfo-Blocks 1810, wohingegen die Gene- 
rationenzahlung 1870D des zweiten Fsinfo-Blocks 1870 einen Wert von N 
hat Der Fsinfo-Block 1810 referenziert den neuen Konsistenzpunkt 1831, 
wohingegen der Fsinfo-Block 1870 den alten Konsistenzpunkt 1830 refe- 
renziert Als nachstes wird die Generationenzahlung 1870D des Fsinfo- 
Blocks 1870 aktualisiert und auf Platte geschrieben, wie dies in Figur 20C 
dargestellt ist. In Figur 20C besitzt die Generationenzahlung 1870D des 
Fsinfo-Blocks 1870 einen Wert N+1. Deshalb besitzen beide Fsinfo- 
BIocke 1810 und 1870 den gleichen Generationen-Zahlerstand N+1. 
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Kommt es zu einem Systemzusammenbruch zwischen zwei Fsinfo-Block- 
Aktualisieningen, besitzt jede Kopie des Fsinfo-Blocks 1810 und 1870 
eine (in dem Diagramm nicht gezeigte) selbstkonsistente Prufsumme, je- 
doch weist eine der Generationenzahlen 1810D oder 1870D einen hoheren 

5 Wert auf. Ein Systemzusammenbruch geschieht, wenn das Dateisystem 
sich in dem in Figur 20B gezeigten Zustand befindet. In der bevorzugten 
Ausfuhnmgsform der vorliegenden Erfindung gemaB Figur 20B wird die 
Generationenzahlung 1810D des Fsinfo-Blocks 1810 vor dem zweiten 
Fsinfo-Block 1870D aktualisiert. Daher ist die Generationenzahlimg 

10 1810D (mit dem Wert Eins) grSBer als die Generationenzahlung 1870D 
des Fsinfo-Blocks 1870. Da die Generationenzahlung des ersten Fsinfo- 
Blocks 1810 groBer ist, wird sie zur Wiederherstellimg des Dateisystems 
nach einem Systemzusammenbrach ausgewahlt. Dies geschieht deshalb, 
weil der erste Fsinfo-Block 1810 mehr laufende Daten enthalt, was diu-ch 

15 seine Generationenzahlimg 1810D angegeben wird. Falls der erste Fsinfo- 
Block verfalscht wird, da bei seiner Aktualisierung das System zusam- 
menbricht, so wird die andere Kopie 1870 des Fsinfo-Blocks zur Wieder- 
herstellung des Dateisystems 1830 in konsistentem Zustand verwendet. 

20 Erfindungsgemafi ist es nicht moglich, beide Fsinfo-Blocke 1810 imd 1870 
gleichzeitig zu aktualisieren. Deshalb existiert in dem Dateisystem minde- 
stens erne gute Kopie des Fsinfo-Blocks 1810 imd 1870. Dies macht es 
moglich, das Dateisystem stets in einem konsistenten Zustand wiederher- 
zustellen. 

25 

WAFL macht keine speziellen Wiederherstellungsprozeduren erforderlich. 
Dies unterscheidet es von bekannten Systemen, die von ProtokoUierung, 
geordneten Schreibvorgangen xmd streng geordneten Schreibvorgangen bei 
der Wiederherstellimg Gebrauch machen. Dies deshalb, weil nur Datenver- 
30 falschung, gegen die RAID Schutz bietet, oder Software ein WAFL- 
Dateisystem verfalschen kann. Um Datenverlust bei einem Systemausfall 
zu vermeiden, kann WAFL ein nicht-fliichtiges Transaktions-ProtokoU fur 
samtliche Operationen fuhren, die nach dem jungsten Konsistenzpunkt 
erfolgt sind. Dieses ProtokoU ist vollig unabhangig vom WAFL- 
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Plattenformat und ist nur erforderlich, um zu verhindem, daB bei einem 
Systemzusammenbnich Operationen verlorengehen. Allerdings ist es nicht 
erforderlich, die Konsistenz des Dateisystems beizubehalten. 

Erzeugen eines Konsistenzp unkte 

Wie oben beschrieben, werden Anderungen des WAFL-Dateisystems 
streng gesteuert, um das Dateisystem in einem konsistenten Zustand zu 
halten. Figuren 17A-17H veranschaulichen die Erzeugung eines Konsi- 
stenzpunkts fur ein WAFL-Dateisystem. Die Erzeugung eines Konsistenz- 
punkts Wird anhand der Figuren 5 und 6 erlautert. 

In den Figuren 17A-17L sind Puffer, die nicht modifiziert wurden, ohne 
Stemchen neben sich. Deshalb enthalten Puffer die gleichen Daten wie 
entsprechende platteninteme BlScke. Damit laBt sich ein Block in den 
Speicher laden, er ist gegenuber seiner plattenintemen Version jedoch un- 
verandert. Ein Puffer mit einem einzelnen Stemchen (*) daneben bedeutet 
einen unsauberen Puffer in dem Speicher (seine Daten sind modifiziert). 
Ein Puffer mit einem doppelten Stemchen (**) neben sich bedeutet einen 
unsauberen Puffer, dem Plattenspeicherplatz zugewiesen ist. SchlieBlich ist 
ein Puffer mit einem Dreifachstemchen (***) ein unsauberer Puffer, der in 
einen neuen Block auf der Platte eingeschrieben ist. Die Konvention zum 
Bezeichnen des Zustands von Puffem wird auch bei den Figuren 21A-21E 
benutzt 



Figur 17A zeigt eine Liste 2390 von Inoden mit unsauberen Puffem, um- 
fassend Inoden 2306A und 2306B. Die Inoden 2306A und 2306B referen- 
zieren Baume von Puffem, in denen mindestens ein Puffer jedes Baums 
modifiziert wurde. Zu Begiim werden Konsistenzpunkt-Flags 2391 und 
2392 der Inoden 2306A und 2306B geloscht (0). Wahrend fur das vorlie- 
gende System eine Liste 2390 von Inoden mit unsauberen Puffem darge- 
stellt ist, sollte dem Fachmann ersichtlich sein, daC andere Listen von Ino- 
den ebenfalls im Speicher existieren koimen. Beispielsweise wird in dem 
Speicher eine Liste von Dioden gefuhrt, die unsauber sind, allerdings keine 
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unsauberen Puffer haben. Diese Inoden miissen als in dem Konsistenz- 
punkt befindlich markiert werden. Sie miissen auf die Platte geraumt war- 
den, damit auch der unsaubere Inhalt der Inoden-Datei auf die Platte ge- 
schrieben wird, selbst wenn unsaubere Inoden nicht unsaubere Biocke re- 
ferenzieren. Dies geschieht im Schritt 520 in Figur 5. 

Figur 17B ist ein Diagranmi, welches ein WAFL-Dateisystem eines vor- 
hergehenden Konsistenzpunkts mit dem Fsinfo-Block 2302, der Inoden- 
Datei 2346, der blkmap-Datei 2344 sowie Dateien 2340 und 2342 umfaBt. 
Die Datei 2340 enthalt Biocke 2310-2314, die Daten ,3" bzw. „C" 
enthalten. Die Datei 2342 enthalt Datenblocke 2316-2320 mit Daten ,JD", 
,JE" bzw. ,JF". Die blkmap-Datei 2344 enthalt den Block 2324. Die Inoden- 
Datei 2346 enthalt zwei 4 KB-Blocke 2304 und 2306. Der zweite Block 
2306 enthalt Inoden 2306A-2306C, die die Datei 2340, die Datei 2342 
bzw. die blkmap-Datei 2344 referenzieren. Dies ist im Block 2306 durch 
Auflistung der Dateinummer in der Diode angezeigt. Fsinfo-Block 2302 
enthalt die Wurzelinode. Die Wurzelinode referenziert die Biocke 2304 
\md 2306 der Inoden-Datei 2346. Figur 17B veranschaulicht einen Baum 
von Puffem in einem Dateisystem mit Wurzelbildung durch den Fsinfo- 
Block 2302, welcher die Wurzelinode beinhaltet. 

Figur 17C ist ein Diagramm welches zwei modifizierte Puffer fur die 
Biocke 2314 und 2322 im Speicher veranschaulicht. Das aktive Dateisy- 
stem wird so modifiziert, daB der die Daten „C" enthaltende Block 2314 
aus der Datei 2340 geloscht wird. Aufierdem werden die im Block 2320 
gespeicherten Daten „F" zu ,JF-Prime" modifiziert und in einem Puffer fur 
den Plattenblock 2322 gespeichert. Es soUte gesehen werden, daB die in 
Puffem fur Plattenblocke 2314 und 2322 enthaltene modifizierte Daten zu 
dieser Zeit nur im Speicher existieren. Samtliche ubrigen Bl5cke in dem 
aktiven Dateisystem der Figur 17C sind nicht modifiziert und deshalb nicht 
mit einem Stemchen neben ihnen markiert. Allerdings konnen einige oder 
samtliche dieser Biocke in dem Speicher zugehorige saubere Puffer auf- 
weisen. 
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Figur 17D ist ein Diagramm, welches die Eintrage 2324A-2324M der 
blkmap-Datei 2344 im Speicher veranschaulicht. Eintrage 2324A-2324M 
sind in einem Puffer fiir den 4-KB-BIock 2324 der blkmap-Datei 2344 
enthalten. Wie zuvor beschrieben, sind das BITO und BIT31 das FS-BIT 
bzw. das CP-BIT. Das Konsistenzpunkt-Bit (CP-BIT) wird wahrend eines 
Konsistenzpunkts gesetzt, um zu garantieren, daB der entsprechende Block 
nach Beginn, jedoch noch nicht erfolgtem AbschluB eines Konsistenz- 
punkts modifiziert wird. BITl ist das erste SchnappschuB-Bit (wird unten 
beschrieben). Blkmap-Eintrage 2324A und 2324B veranschaulichen, daB 
gemaB Figur 17B die 4-KB-Bl5cke 2304 und 2306 der Inoden-Datei 2346 
in dem aktiven Dateisystem (FS-BIT gleicht 1) und in dem Konsistenz- 
punkt (CP-BIT gleicht 1) sind. In ahnlicher Weise sind die ubrigen Blocke 
2310-2312 und 2316-2320 sowie 2324 in dem aktiven Dateisystem und in 
dem KonsistenzpunkL AUerdings sind die Blocke 2308 und 2322 sowie 
2326-2328 weder in dem aktiven Dateisystem noch in dem Konsistenz- 
punkt (was durch BITO bzw. BIT31 angegeben wird). Der Eintrag fur den 
gelSschten Block 2314 hat einen Wert 0 im FS-BIT, was anzeigt, daB er 
aus dem aktiven Dateisystem entfemt wurde. 

Im Schritt 510 der Figur 5 werden samtliche „unsauberen" Inoden in dem 
System als im Konsistenzpunkt befmdlich markiert. Unsaubere Inoden 
enthalten sowohl Inoden, die unsauber sind, als auch Inoden, welche un- 
saubere Puffer referenzieren. Figur 171 veranschaulicht eine Liste von Ino- 
den mit imsauberen PufFem, wo die Konsistenzpimkt-Flags 2391 und 2392 
von Inoden 2306A und 2306B gesetzt (1) sind. Die Inode 2306A referen- 
ziert den Block 2314, der Daten „C" der Datei 2340 enthSlt, die aus dem 
aktiven Dateisystem zu iSschen ist Die Inode 2306B des Blocks 2306 der 
Inoden-Datei 2346 referenziert die Datei 2342. Der Block 2320, der die 
Daten „F" enthalt, wurde modifiziert, und es muB ein neuer Block zuge- 
wiesen werden, der die Daten enthalt. Im Schritt 510 werden die un- 
sauberen Inoden 2306A und 2306B in den Puffer fur den Block 2308 ein- 
kopiert. Der Puffer fur den Block 2306 wird anschlieBend (im Schritt 530) 
auf Platte geschrieben. Dies ist in Figur 17E dargestellt. Die modifizierten 
Daten existieren nur in dem Speicher, und der Puffer 2308 ist als unsauber 
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markiert. Die Inkonsistenzpunkt-Flags 2391 und 2392 der Inoden 2306A 
und 2306B werden anschlieBend geloscht (0), wie in Figur 17A dargestellt. 
Dies gibt die Inoden fiir die Benutzung dutch andere Prozesse frei. 

Im Schritt 520 werden regulare Dateien auf Platte geraumt. Damit wird 
dem Block 2322 Plattenspeicherplatz zugewiesen. Der Block 2314 der 
Datei 2340 ist zu loschen, so daB mit diesem Block nichts geschieht, bis 
spater dann der Konsistenzpnnkt abgeschlossen ist. Der Block 2322 wird 
im Schritt 520 auf Platte geschrieben. Dies ist in Figur 17F dargestellt, wo 
Puffer fur die Blocke 2322 und 2314 auf Platte geschrieben wurden (mar- 
kiert durch ***). Die Zwischen-Zuordnung von Plattenspeicherraum (**) 
ist nicht dargestellt Die Inoden 2308A und 2308B des Blocks 2308 der 
Inoden-Datei 2346 werden anschlieBend in die Inoden-Datei geraumt. Die 
Inode 2308A des Blocks 2308 referenziert Bl6cke 2310 und 2312 der Da- 
tei 2346. Die Inode 2308B referenziert Blocke 2316, 2318, 2322 fur die 
Datei 2342. Wie in Figur 17F gezeigt ist, wird Plattenspeicherplatz fur den 
Block 2308 der Inode 2346 und fur den direkten Block 2322 der Datei 
2342 zugewiesen. AUerdings ist das Dateisystem selbst noch nicht aktuali- 
siert worden. Damit bleibt das Dateisystem in einem konsistenten Zustand. 

Im Schritt 530 wird die blkmap-Datei 2344 auf Platte geraumt. Dies ist in 
Figur 17G dargestellt, wo die blkmap-Datei 2344 durch ein Stemchen als 
unsauber gekennzeichnet ist. 

Im Schritt 610 der Figur 6 wird die Inode fur die blkmap-Datei vorab in 
die Inoden-Datei gerSumt, wie in Figur 17H gezeigt. Die Inode 2308C 
wurde in den Block 230B der Inoden-Datei 2346 geraumt. AUerdings refe- 
renziert die Inode 2308C immer noch den Block 2324. Im Schritt 620 wird 
Plattenspeicherraum fur die blkmap-Datei 2344 und die Inoden-Datei 2346 
zugewiesen. Der Block 2308 wird fur die Inoden-Datei 2346 zugewiesen, 
und Block 2326 wird fur die blkmap-Datei 2344 zugewiesen. Wie oben 
beschrieben, enthalt der Block 2308 der Inoden-Datei 2346 eine vorab- 
geraumte Inode 2308C fur die blkmap-Datei 2344. Im Schritt 630 wird die 
Inode fur die blkmap-Datei 2344 in den vorgeraumten Block 2308C in der 
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Inode 2346 geschrieben. Damit wird im Schritt 620 die interne Inode 
2308C zum Referenzieren des Blocks 2324 aktualisiert und wird in den 
Puffer des Speichers kopiert, der den in den Block 2308 zu schreibenden 
Block 2306 enthalt. Dies ist in Figur 17H dargestellt, wo die Inode 2308C 
den Block 2326 referenziert. 

Im Schiitt 640 werden die Eintrage 2326A-2326L fur jeden Block 2304- 
2326 in der blkmap-Datei 2344 in Figur 17J aktualisiert. Blocke, die sich 
nach dem Beginn des Konsistenzpunkts in Figur 17B nicht geandert haben, 
besitzen in ihren Eintragen dieselben Werte. Die Eintrage werden dadurch 
aktualisiert, daB BITO (das FS-Bit) in das Konsistenzpunkt-Bit (BIT31) 
kopiert wird. Der Block 2306 ist nicht Teil des aktiven Dateisystems, und 
deshalb ist BITO gleich Null (BITO wurde im Schritt 620 ausgeschaltet, als 
der Block 2308 zugewiesen wurde, um neue Daten fur diesen Teil der Ino- 
den-Datei aufzunehmen). Dies ist in Figur 17J fur den Eintrag 2326B dar- 
gestellt. In ahnlicher Weise ist im Eintrag 2326F fur den Block 2314 der 
Datei 2340 das BITO und das BIT31 gleich Null. Block 2320 der Datei 
2342 und Block 2324 der blkmap-Datei 2344 werden in ahnlicher Weise 
gehandhabt, wie dies fur die Eintrage 2361 bzw. 2326K gezeigt ist. Im 
Schritt 650 werden der xmsaubere Block 2308 der Inoden-Datei 2346 und 
der unsaubere Block 2326 der blkmap-Datei 2344 auf Platte geschrieben. 
Dies ist in Figur 17K durch ein dreifaches Sterachen (***) neben den 
Blocken 2308 und 2326 angegeben. 

Bezugnehmend auf Figur 5 wird im Schritt 540 der Dateisj^teminformati- 
onsblock 2302 auf Platte gerSumt, und dies geschieht zweimal. Damit ist 
der Fsinfo-Block 2302 imsauber geworden und wird anschlieBend auf Plat- 
te geschrieben (in Figur 17L durch ein Dreifachstemchen angedeutet). In 
Figur 17L ist em einzelner Fsinfo-Block 2302 dargestellt. Wie aus dem 
Diagranun ersichtlich ist, referenziert der Fsinfo-Block 2302 jetzt den 
Block 2304 und den Block 2308 der Inoden-Datei 2346. In Figur 17L ist 
der Block 2306 nicht mehr Bestandteil der Inoden-Datei 2346 des aktiven 
Dateisystems. In ahnlicher Weise enthalt die durch die Inode 2308A der 
Inoden-Datei 2346 referenzierte Datei 2340 Blocke 2310 und 2312. Der 
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Block 2314 ist nicht mehr Bestandteil der Datei 2340 innerhalb dieses 
Konsistenzpunkts. Die Datei 2342 enthalt Blocke 2316, 2318 und 2322 in 
dem neuen Konsistenzpunkt, wahrend Block 2320 nicht Bestandteil der 
Datei 2342 ist. Weiterhin referenziert der Block 2308 der Inoden-Datei 
5 2346 eine neue blkmap-Datei 2344 mit dem Block 2326. 

Wie in Figur 17L gezeigt ist, wird in einem Konsistenzpunkt das aktive 
Dateisystem dadurch aktualisiert, daB die Inode der Inoden-Datei 2346 in 
den Fsinfo-Block 2302 einkopiert wird. AUerdings verbleiben die Blocke 
10 2314, 2320, 2324 und 2306 des vorfaergehenden Konsistenzpunkts auf der 
Platte. Diese Bl5cke werden beim Aktualisieren des Dateisystems niemals 
uberschrieben, um zu garantieren, dafi sowohl der alte Konsistenzpunkt 
1830 als auch der neue Konsistenzpunkt 1831 auf der Platte vorhanden 
sind, siehe Figur 20 und Schritt 540. 

15 

Schnappschusse 

Das WAFL-System arbeitet mit Schnappschussen. Bin SchnappschuB oder 
eine Momentaufiiahme ist eine nur lesbare Kopie eines gesamten Dateisy- 

20 stems zu einem gegebenen Augenblick, zu welchem der SchnappschuB 
erzeugt wird Ein neu erzeugter SchnappschuB bezieht sich auf exakt die- 
selben Plattenblocke, wie dies das aktive Dateisystem tut. Deshalb wird er 
mnerhalb einer kurzen Zeitspanne erzeugt und verbraucht keinen zusStzli- 
Chen Plattenspeicherplatz- Nur wenn DatenblScke innerhalb des aktiven 

25 Dateisystems modifiziert xmd in neue Stellen auf der Platte geschrieben 
werden, beginnt der SchnappschuB, besonderen Platz zu beanspruchen. 

WAFL halt bis zu 20 imterschiedliche Schnappschusse, die von 1 bis 20 
numeriert sind. Damit ermoglicht WAFL die Erzeugung mehrfacher „Klo- 
30 ne** desselben Dateisystems. Jeder SchnappschuB wird durch eine 
SchnappschuB-lnode reprasentiert, die ahnlich der Darstellung des aktiven 
Dateisystems durch eine Wurzehnode ist. Schnappschusse werden erzeugt 
durch Duplizieren der Wurzeldatenstruktur des Dateisystems. In der be- 
vorzugten Ausfiihrungsforai ist die Wurzeldatenstruktur die Wurzelinode. 



38 



AUerdings konnte auch jede andere Datenstniktur verwendet werden, die 
reprasentativ fur ein gesamtes Dateisystem ist. Die SchnappschuB-Inoden 
befinden sich an einer festen Stelle innerhalb der Inoden-Datei. Die Be- 
grenzung auf 20 Schnappschusse wird diirch die GroCe der Blockabbild- 
Eintrage bestimmt. WAFL erfordert zwei Schritte zum Erzeugen eines 
neuen Schnappschusses N: Kopieren der Wurzelanode in die Anode fiir 
den SchnappschuB N und Kopieren des Bits 0 in das Bit N jedes Blockab- 
bild-Eintrags innerhalb der blkmap-Datei. BitO gibt die Blocke an, die von 
dem Baum xinterhalb der Wurzelinode referenziert werden. 

Das Ergebnis ist ein neuer Dateisystembaum, dessen Wurzel gebildet wird 
durch die SchnappschuB-Inode N, die exakt dieselben Plattenblocke refe- 
renziert wie die Wurzelinode. Durch Einstellen eines entsprechenden Bits 
in der Blockabbildung fur jeden Block in dem SchnappschuB wird verhin- 
dert, daB SchnappschuB-Blocke freigesetzt werden, selbst wenn die aktive 
Datei die SchnappschuB-Blocke nicht mehr verwendet. Da WAFL stets 
neue Daten auf unbenutzte Speicherplatze schreibt, andert sich der 
SchnappschuB-Baum selbst dann nicht, wenn das aktive Dateisystem sich 
andert. Da ein neu erzeugter SchnappschuB-Baum exakt die gleichen 
Blocke wie die Wurzelinode referenziert, verbraucht er keinen zusatzli- 
chen Plattenspeicherplatz. Im Lauf der Zeit referenziert der SchnappschuB 
PlattenblScke, die ansonsten freigesetzt wurden. Damit benutzen im Ver- 
lauf der Zeit der SchnappschuB und das aktive Dateisystem immer weniger 
Bl6cke, so daB der von dem SchnappschuB beanspruchte Raum zunimmt. 
Schnappschusse kSnnen geloscht werden, wenn sie eine nicht mehr akzqj- 
tierbare Anzahl von Plattenbl5cken belegen. 

Die Liste aktiver SchnappschOsse wird zusammen mit den Namen der 
Schnappschusse in einer SchnappschuB-Verzeichnis genaimten Metadaten- 
Datei abgespeichert. Der Plattenzustand wird in der oben beschriebenen 
Weise aktualisiert Wie bei samtlichen anderen Andenmgen erfolgt die 
Aktualisierung durch automatisches Weiterschreiten von einem Konsi- 
stenzpunkt zum anderen. Modifizierte Blocke werden in unbenutzte Platze 
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auf der Platte geschrieben, woraufhin eine neue Wurzelinode, welche das 
akttialisierte Dateisystem beschreibt, geschrieben wird, 

Uberblick uber Schnappschiisse 

5 

Figur 18A ist ein Diagramm des Dateisy stems 1830, bevor ein Schnapp- 
schuB aufgenommen wird, wobei Umwege-Ebenen entfemt wurden, iim 
einen einfacheren Uberblick uber das WAFL-Dateisystem zu erm5glichen. 
Das Dateisystem 1830 reprasentiert das in Figur 16 gezeigte Dateisystem 

10 1690. Das Dateisystem 1830 besteht aus Blocken 1812 bis 1820. Die Inode 
der Inoden-Datei ist in dem Fsinfo-Block 1810 enthalten. Wahrend eine 
einzelne Kopie des Fsinfo-Blocks 1810 in Figur 18A dargestellt ist, ver- 
steht sich natiirlich, daB auf der Platte eine zweite Kopie des Fsinfo-Blocks 
vorhanden ist. Die in dem Fsinfo-Block 1810 enthaltene Inode 1810A ent- 

15 halt 16 Zeiger, die auf 16 Blocke mit gleicher Umwegeebene zeigen. Die 
Blocke 1810-1820 in Figur 18A reprasentieren samtliche Blocke innerhalb 
des Dateisystems 1830 einschlieBlich direkte Blocke, indirekte Blocke, etc. 
Obschon lediglich ftinf Blocke 1812-1820 dargestellt sind, kann jeder 
Block aiif weitere Blocke verweisen. 

20 

Figur 18B ist ein Diagramm, das die Erzeugung eines Schnappschusses 
zeigen. Der Schnappschufi wird fur das gesamte Dateisystem 1830 dadurch 
erstellt, daB einfach die Inode 1810A der Inoden-Datei kopiert wird, die in 
dem Fsinfo-Block 1810 gespeichert ist, wobei die Inode in die Schnapp- 

25 schuB-Inode 1822 einkopiert wird. Durch Einkopieren der Inode 181 OA 
der Inoden-Datei wird eine neue Datei von Dioden erzeugt, die das gleiche 
Dateisystem wie das aktive Dateisystem reprasentiert, weil die Inode 
181 OA der Inoden-Datei selbst kopiert wird. Es brauchen keine weiteren 
Blocke 1812-1820 dupliziert zu werden. Die kopierte Inode oder Schnapp- 

30 schuB-Inode 1822 wird dann in die Inoden-Datei einkopiert, was einen 
Block innerhalb der Inoden-Datei unsauber macht. Fiir eine Inoden-Datei 
aus einer oder mehreren Umwegeebenen wird jeder indirekte Block wie- 
derum imsauber gemacht. Dieser Vorgang des Verunreinigens von B15k- 
ken schreitet durch samtliche Umwegeebenen. Jeder 4-KB-Block inner- 
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halb der Inoden-Datei auf der Platte enthalt 32 Inoden, wo jede Inode 128 
Bytes L3nge aufweist. 

Die neue SchnappschuB-Inode 1822 nach Figur 18B venveist zuruck auf 
die Blocke 1812-1820 hSchster Umwegeebene, referenziert durch die Ino- 
de 1810A der Inoden-Datei, wenn der SchnappschuB 1822 aufgenommen 
wird. Die Inoden-Datei selbst ist eine rekursive Struktur, weil sie Schnapp- 
schusse des Dateisystems 1830 beinhaltet. Jeder SchnappschuB 1822 ist 
eine Kopie der Inode 1810A der Inoden-Datei, welche in die Inoden-Datei 
einkopiert wird. 

Figur 18C ist ein Diagramm, das das aktive Dateisystem 1830 und den 
SchnappschxiB 1822 fiir den Zeitpunkt veranschaulicht, zu dem eine Ande- 
rung des aktiven Dateisystems 1830 nach Aufhahme des Schnappschusses 
1822 stattfindet. Wie in dem Diagramm gezeigt, wird der Block 1818 mit 
den Daten JD" nach Aufoahme des Schnappschusses (Figur 18B) modifi- 
ziert, und deshalb wird ein neuer Block 1824 mit Daten ,J>prime" fur das 
aktive Dateisystem 1830 zugeofdnet. Damit enthalt das aktive Dateisystem 
1830 Blocke 1812-1816 und 1820-1824, es enthalt aber nicht den Block 
1818 mit den Daten ,JD". Allerdings wird der die Daten enthaltende 
Block 1818 deshalb nicht uberschrieben, weil das WAFL-System keine 
Bl5cke auf der Platte iiberschreibt Der Block 1818 wird gegen ein Ober- 
schreiben von einem SchnappschuB-Bit geschfltzt, welches m dem Block- 
abbild-Eintiag fiir den Block 1818 gesetzt wird. Deshalb zeigt der 
SchnappschuB 1822 immer noch auf den unmodifizierten Block 1818 
ebenso wie auf die Bl6cke 1812-1816 und 1820. Die vorliegende Erfm- 
dung unterscheidet sich gemSB den Figuren 18A-18C von bekannten Sy- 
stemen, die .JKlone" eines Dateisystems erzeugen, wobei ein Klon eine 
Kopie samtlicher Blocke einer Diodendatei auf einer Platte ist. Damit 
werden die gesamten Inhalte der herkommlichen Inoden-Dateien dupli- 
ziert, was groBe Mengen (MB) an Plattenspeicherplatz ebenso erfordert 
wie betrachtliche Zeit fur Platten-E/A-Operationen. 
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Wenn das aktive Dateisystem 1830 in Figur 18C modifiziert wird, bendtigt 
es deshalb mehr Plattenspeicherraum, weil das Dateisystem mit den Blok- 
ken 1812-1820 nicht uberschrieben wird. In Figur 18C ist der Block 1818 
als ein direkter Block dargestellt. Bei einem wirklichen Dateisystem aller- 
5 dings kann der Block 1818 auch durch einen indirekten Block mittels Zei- 
ger angesprochen werden. Wenn also der Block 1818 modifiziert imd an 
einen neuer Stelle der Platte als Block 124 abgespeichert wird, werden 
auch die entsprechenden direkten und indirekten Blocke kopiert und dem 
aktiven Dateisystem 1830zugeordnet 

10 

Figur 19 ist eiri Diagramm, welches die Anderungen veranschaulicht, die 
im Block 1824 gemafi Figur 18C auftreten. Der Block 1824 nach Figur 
18C ist in der gestrichelten Linie 1824 in Figur 19 dargestellt. Figur 19 
veranschaulicht verschiedene Umwegeebenen fur den Block 1824 nach 

15 Figur 18C. Der neue Block 1910, welcher gemaB Figur 18C auf die Platte 
geschrieben wird, ist in Figur 19 mit 1910 bezeichnet. Weil der Block 
1824 einen Datenblock 1910 enthalt, welcher modifizierte Daten beinhal- 
tet, die durch einen doppelten Umweg oder doppelten Verweis referenziert 
werden, werden auch zwei weitere Blocke 1918 xmd 1926 modifiziert. Der 

20 Zeiger 1924 eines einfach-indirekten Blocks 1918 referenziert einen neuen 
Block 1910, und deshalb muB der Block 1918 an eine neue Stelle der Plat- 
te geschrieben werden. In ahnlicher Weise wird der Zeiger 1928 des indi- 
rekten Blocks 1926 modifiziert, da er auf den Block 1918 zeigt Deshalb 
kann gemafi Figur 19 das Modifizieren eines Datenblocks 1910 zur Folge 

25 haben, dafi mehrere indirekte Bldcke 1918 und 1926 ebenfalls modifiziert 
werden. Dies macht es erforderlich, auch die Blocke 1918 imd 1926 auf 
eine neue Stelle der Platte zu schreiben. 

Da die direkten und indirekten Blocke 1910, 1918 und 1926 des Daten- 
30 blocks 1824 in Figur 18C geandert und an eine neue Stelle geschrieben 
wurden, wird die Inode in der Inoden-Datei in einen neuen Block ge- 
schrieben. Der modifizierte Block der Inoden-Datei erhalt einen neuen 
Block auf der Platte, da Daten nicht iiberschrieben werden konnen. 
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Wie in Figur 19 gezeigt ist, wird auf den Block 1910 durch indirekte Bl5k- 
ke 1926 bzw. 1918 gezeigt. Wenn also der Block 1910 modifiziert und an 
einer neuen Stelle der Platte gespeichert wird, werden auch die entspre- 
chenden direkten und indirekten BlScke kopiert und dem aktiven Dateisy- 
stem zugeordnet Damit muB eine Reihe von Datenstrukturen aktualisiert 
werden. Das Andem des direkten Blocks 1910 und der indirekten Blocke 
1918 und 1926 veranlaBt, daB die blkmap-Datei modifiziert werden muB. 

Die Schlusseldatenstnikturen fur Schnappschusse sind die Blockabbild- 
Eintr§ge, wo jeder Eintrag mehrere Bits fur einen SchnappschuB aufweist. 
Dies ermoglicht es, daB mehrere Schnappschusse erzeugt werden. Bin 
SchnappschuB ist ein Bild eines Baums von Blocken, die das Dateisystem 
(1830 in Figur 18) bilden. Solange keine neuen Daten auf Blocke des 
Schnappschusses geschrieben werden, wird das durch den SchnappschuB 
reprasentierte Dateisystem nicht geandert. Ein SchnappschuB ist einem 
Konsistenzpimkt Shnlich. 

Das erfindungsgemaBe Dateisystem ist vollstandig konsistent nach dem 
letzten Mai des Schreibens der Fsinfo-Blocke 1810 und 1870. Wenn daher 
das System einen Netzausfall erleidet, entsteht beim Neustart das Dateisy- 
stem 1830 in konsistentem Zustand. Da 8-32 MB Plattenspeicherraum bei 
einem typischen bekannten ,JClon" eines 1-GB-Dateisy stems venvendet 
werden, fuhren Klone nicht zu Konsistenzpunkten oder Schnappschussen 
wie die vorliegende Erfindung. 

Bezugnehmend auf Figur 22 existieren zwei fruhere Schnappschflsse 
2110A und 2110B auf der Platte. Zu dem Zeitpunkt, zu dem ein dritter 
SchnappschuB entsteht, wird die auf das aktive Dateisystem zeigende 
Wurzelinode in den Inodeneintrag 2110C fiir den dritten SchnappschuB in 
der Inoden-Datei 2110 kopiert. Gleichzeitig zeigt in dem durchgehenden 
Konsistenzpunkt ein Flag an, daB der SchnappschuB 3 erzeugt wird. Das 
gesamte Dateisystem wird verarbeitet, indem gepruft wird, ob BITO fur 
jeden Eintrag inneihalb der blkmap-Datei gesetzt (1) oder geloscht (0) ist. 
Samtliche BITO-Werte fur jeden Blockabbild-Eintrag werden in die Ebene 
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fur den SchnappschuB 3 kopiert. Nach Beendigung ist jeder aktive Block 
2110-2116 und 1207 in dem Dateisystem zu diesem Zeitpunkt in dem 
SchnappschuB aufgenommen. 

Blocke, die durchgangig fiir eine gegebene Zeitspanne auf der Platte exi- 
stiert haben, befinden sich ebenfalls in den entsprechenden Schnappschiis- 
sen 2110A-2110B, die dem dritten SchnappschuB 21 IOC vorausgehen, 
Wenn ein Block in dem Dateisystem fur eine ausreichend lange Zeitspanne 
verblieben ist, ist er in samtlichen Schnappschussen enthalten. Der Block 
1207 ist ein derartiger Block. Wie in Figur 22 gezeigt ist, wird der Block 
1207 durch die Inode 2210G der aktiven Inoden-Datei referenziert, auBer- 
dem indirekt durch die Schnappschusse 1, 2 imd 3. 

Die sequentielle Reihenfolge von Schnappschussen reprasentiert nicht un- 
bedingt eine chronologische Reihenfolge von Dateisystem-Kopien, Jeder 
einzelne SchnappschuB in einem Dateisystem kann zu jeder gegebenen 
Zeit geloscht werden, xun dadurch einen Eintrag fur nachfolgenden Ge- 
brauch verfligbar zu machen. Wenn BITO eines blkmap-Eintrags, der das 
aktive Dateisystem referenziert, geloscht wird (was bedeutet, daB der 
Block aus dem aktiven Dateisystem geloscht wurde), so kann der Block 
nicht noch einmal benutzt werden, wenn irgendeines der SchnappschxiB- 
Referenzbits gesetzt wird. Dies deshalb, weil der Block Teil eines 
Schnappschusses ist, der noch in Gebrauch ist. Ein Block kann nur neu 
verwendet werden, wenn samtliche Bits in dem blkmap-Eintrag auf Null 
gesetzt sind. 

Alporithmus zum Erzeugen eines Schn appschusses 

Das Erzeugen eines Schnappschusses entspricht etwa exakt der Erzeugung 
eines regularen Konsistenzpunkts gemaB Figur 5, Im Schritt 510 werden 
samtliche imsauberen Inoden als in dem Konsistenzpunkt befindlich mar- 
kiert. Im Schritt 520 werden regulate Dateien auf die Platte geraumt. Im 
Schritt 520 werden Spezialdateien (das heiBt die Inoden-Datei und die 
blkmap-Datei) auf Platte geraumt. Im Schritt 540 werden Fsinfo-Blocke 
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auf Platte geraumt. Im Schritt 550 werden samtliche Inoden, die sich nicht 
im Konsistenzpunkt befanden, verarbeitet. Figur 5 wird oben im einzelnen 
beschrieben. Tatsachlich erfolgt das Erzeugen eines Schnappschusses als 
Teil der Erzeugung eines Konsistenzpunkts. Der Hauptunterschied zwi- 
schen der Erzeugung eines Schnappschusses und der eines Konsistenz- 
punkts besteht darin. daB sSmtliche Eintrage der blkmap-Datei das aktive 
FS-Bit in das SchnappschuB-Bit einkopiert haben. Das SchnappschuB-Bit 
reprasentiert den entsprechenden SchnappschuB, urn die Blocke in dem 
SchnappschuB gegen Uberschreiben zu schutzen. Das Erzeugen und das 
Loschen von Schnappschussen erfolgt im Schritt 530, da dies der einzige 
Punkt ist, an dem das Dateisystem vollstandig selbst konsistent ist und auf 
dem Wege zur Platte ist. 

Im Schritt 530 werden unterschiedliche Schritte duichgefuhrt, die dann in 
Figur 6 dargestellt sind, und zwar fur einen Konsistenzpunkt, wenn ein 
neuer SchnappschuB eizeugt wird. Die Schritte sind sehr ahnlich jenen fiir 
einen reguiaren Konsistenzpunkt. Figur 7 ist ein FluBdiagramm, welches 
die Schritte zeigt, welche der Schritt 530 zum Erzeugen eines Schnapp- 
schusses umfaBt Wie oben beschrieben, weist der Schritt 530 Plattenspei- 
cheiplatz fur die blkmap-Datei imd die Inoden-Datei zu und kopiert das 
aktive FS-Bit in das SchnappschuB-Bit, welches den entsprechenden 
SchnappschuB reprasentiert, um die Blocke in dem SchnappschuB gegen 
Uberschreiben zu schutzen. 

Im Schritt 710 werden die Inoden der blkmap-Datei und des Schnapp- 
schusses auf Platte vorgeraumt. Zusatzlich zu dem Raumen der Inode und 
der blkmap-Datei in einen Block der Inoden-Datei (wie im Schritt 610 der 
Figur 6 fiir einen Konsistenzpunkt), wird die Inode des erzeugten Schnapp- 
schusses auch in einen Block der Inoden-Datei geraumt Dies garantiert, 
daB der Block in der Inoden-Datei, der die Inode des Schnappschusses 
enthalt, unsauber ist. 

Im Schritt 720 wird jeder Block in der blkmap-Datei imsauber gemacht. Im 
Schritt 760 (unten beschrieben) werden samtliche Eintrage in der bikmap- 
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Datei aktualisiert, und nicht nur die Eintrage in imsauberen Blocken. Somit 
mussen samtliche Blocke der blkmap-Datei hier als unsauber markiert 
werden, um zu garantieren, daB der Schritt 730 fur sie Plattenspeicherplatz 
zum Schreiben zuweist. 

Im Schritt 730 wird fur samtliche unsauberen Blocke in der Inode und in 
blkmap-Dateien Plattenspeicherplatz zugewiesen. Die imsauberen Blocke 
enthalten den Block in der Inoden-Datei, welche die Inode der blkmap- 
Datei, die unsauber ist, enthalt, auBerdem den Block, der die Inode fur den 
neuen SchnappschuB enthalt. 

Im Schritt 740 werden die Inhalte der Wurzelinode fiir das Dateisystem in 
die Inode des Schnappschusses innerhalb der Inoden-Datei kopiert. Zu 
dieser Zeit wird jedem Block, der Teil des neuen Konsistenzpimkts ist und 
der auf Platte geschrieben wird, Plattenspeicherplatz zugeordnet. Damit 
kopiert ein Duplizieren der Wurzelinode in die SchnappschuB-Inode in 
wirksamer Weise das gesamte aktive Dateisystem. Die aktuellen Blocke, 
die in dem Schnappschufi enthalten sind, sind die gleichen Blocke des ak- 
tiven Dateisystems. 

Im Schritt 750 werden die Inoden der blkmap-Datei xmd der SchnappschuB 
in die Inoden-Datei kopiert. 

Im Schritt 760 werden Eintrage in der blkmap-Datei aktualisiert Zusatz- 
lich zu dem Kopieren des aktiven FS-Bits in das CP-Bit fur die Eintrage 
wird das aktive FS-Bit auch in das dem neuen SchnappschuB entsprechen- 
de SchnappschuB-Bit kopiert 

Im Schritt 770 werden samtliche imsauberen Blocke in den blkmap- und 
Inoden-Dateien auf Platte geschrieben. 

SchlieBlich werden zu einer gewissen Zeit Schnappschusse selbst aus dem 
Dateisystem entfemt, Schritt 760. Ein SchnappschuB wird dadurch aus 
dem Dateisystem entfemt, daB sein SchnappschuB-Inodeneintrag innerhalb 
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der Inoden-Datei des aktiven Dateisystems geloscht und jedes Bit, das der 
SchnappschuBnummer in jedem -Eintrag innerhalb der blkmap-Datei ent- 
spricht, geloscht wird. Es erfolgt eine Zahlung auch fiir jedes Bit des 
Schnappschusses in samtlichen blkmap-Eintragen, die aus einem einge- 
stellten Wert geloscht werden, um dadurch eine Zahlung der durch L6- 
schen des Schnappschusses freigesetzten Blocke zu schaffen (entsprechend 
der freigesetzten Menge an Plattenspeicherplatz). Das System entscheidet 
anhand des altesten Schnappschusses, welcher SchnappschuB geloscht 
werden soil. Auch Benutzer konnen von Hand spezifizierte Schnappschus- 
se loschen. 

Die vorliegende Erfindung begrenzt die Gesamtanzahl von Schnappschus- 
sen und fiihrt eine blkmap-Datei, die Eintrage mit Mehrfach-Bits zum Ver- 
folgen der Schnappschusse anstelle der Verwendung von Zeigem mit ei- 
nem cow-Bit, wie dies in Episode der Fall ist, aufweist. Ein nicht ver- 
wendeter Block enthalt fur samtliche Bits in seinem blkmap-Datei-Eintrag 
nur Nullen. Ini Verlauf der Zeit wird das BITO fur das aktive Dateisystem 
ublicherweise zu einem gegebenen Zeitpxmkt eingeschaltet. Das Setzen 
des BITO identifiziert den entsprechenden Block als in dem aktiven Datei- " 
system zugeordnet. Wie oben angegeben, werden samtliche Schnapp- 
schuC-Bits zu Beginn auf Null gesetzt. Wenn das aktive Dateibit vor Set- 
zen irgendeines SchnappschuB-Bits geloscht ist, ist der Block in keinem 
auf Platte gespeicherten SchnappschuB vorhanden. Deshalb steht der 
Block sofort zur Neuzuweisimg zur Verfiigung und kann spater aus einem 
SchnappschuB nicht wiedergewoimen werden. 

Erzeueimg eines Schnappschusses 

Wie oben beschrieben, ist ein SchnappschuB einem Konsistenzpunkt sehr 
ahnlich. Deshalb soil die Erzeugung eines Schnappschusses unter Bezug- 
nahme auf die Unterschiede zwischen ihr und der Erzeugung eines Konsi- 
stenzpunkts gemaB Figuren 17A-17L erlautert werden. Figuren 21A-21F 
zeigen die Unterschiede bei der Erzeugung eines Schnappschiisses. 
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Figuren 17A-17D zeigen den Zustand des WAFL-Dateisystems, wenn ein 
SchnappschuB begonnen wird. Samtliche unsauberen Inoden werden als in 
dem Konsistenzpunkt beflndlich markiert, Schritt 510, und im Schritt 520 
werden die regularen Dateien auf Platte geraumt. Damit ist die Anfangs- 
5 verarbeitung fiir einen SchnappschuB identisch mit der eines Konsistenz- 
punkts. Die Verarbeitung fur einen SchnappschuB unterscheidet sich im 
Schritt 530 von der des Konsistenzpunkts, Im folgenden wird die Verarbei- 
tung eines Schnappschusses gemafi Figur 7 erlautert. 

10 Die folgende Beschreibimg gilt fur einen zweiten SchnappschuB des 
WAFL-Dateisystems, Ein erster SchnappschuB ist in den blkmap- 
Eintragen der Figur 17C aufgezeichnet. Wie in den Eintragen 2324A- 
2324M, den Blocken 2304-2306, 2310-2320 und 2324 dargestellt, sind 
diese in dem ersten SchnappschuB enthalten. Samtliche anderen Schnapp- 

15 schuB-Bits (BIT1-BIT20) haben angenommener Weise den Wert 0, was 
anzeigt, daB ein entsprechender SchnappschuB auf der Platte nicht vorliegt. 
Figur 21 A zeigt das Dateisystem nach AbschluB der Schritte 510 und 520. 

Im Schritt 710 werden Inoden 2308C und 2308D des Schnappschusses 2 
20 imd der blkmap-Datei 2344 auf Platte geraumt Dies stellt sicher, daB der 
Block der Inoden-Datei, der die SchnappschuB-2-Inode enthalten wird, 
unsauber ist. In Figur 2 IB werden Inoden 2308C und 2308D fiir den 
SchnappschuB 2 und fiir die blkmap-Datei 2344 vorgeraumt. 

25 Im Schritt 720 ist die gesamte blkmap-Datei 2344 unsauber gemacht Dies 
veranlaBt die gesamte blkmap-Datei 2344, im Schritt 730 Plattenraum zu- 
gewiesen zu bekommen. Im Schritt 730 wird Plattenraimi fiir unsaubere 
Blocke 2308 und 2326 fiir die Inoden-Datei 2346 und die blkmap-Datei 
2344 gemaB Figur 21C zugewiesen. Angedeutet ist dies durch ein Drei- 

30 fachstemchen neben den Blocken 2308 und 2326. Dies unterscheidet 
sich von der Erzeugung eines Konsistenzpunkts, bei dem. Plattenspeicher- 
platz nur fiir Blocke zugewiesen ist, deren Eintrage sich im Schritt 620 der 
Figur 6 innerhalb der blkmap-Datei 2344 geandert haben. Die blkmap- 
Datei 2344 nach Figur 21C enthalt einen einzelnen Block 2324. Wenn al- 
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lerdings die blkmap-Datei 2344 mehr als einen Block umfafit, so wird im 
Schritt 730 Plattenspeicheiplatz ffir samtliche Blocke zugewiesen. 

Im Schritt 740 wird die Wurzelinode ffir das neue Dateisystem in die Inode 
2308D ffir SchnappschuB 2 kopiert. Im Schritt 750 werden die Inoden 
2308C und 2308D der blkmap-Datei 2344 und der SchnappschuB 2 auf 
Platte geraumt, wie in Figur 21 D gezeigt ist. Das Diagramm veranschau- 
licht, daB die Schnapp$chuB-2-Inode 2308D Blocke 2304 und 2308, nicht 
aber Block 2306 referenziert, 

Im Schritt 760 werden Eintrage 2326A-2326L im Block 2326 der blkmap- 
Datei 2344 gemaB Figur 21E aktualisiert. Das Diagramm zeigt, daB das 
SchnappschuB-2-Bit (BIT2) ebenso wie das FS-BIT und das CP-BIT fur 
jeden Eintrag 2326A-2326L aktualisiert wird. Damit sind die Blocke 2304, 
2308-2312, 2316-2318, 2322 und 2326 im SchnappschuB 2 enthalten, die 
BlScke 2306, 2314, 2320 und 2324 jedoch nicht. Im Schritt 770 werden die 
imsauberen Blocke 2308 und 2326 auf Platte geschrieben. 

Die weitere Verarbeitung des Schnappschusses 2 ist identisch mit der Er- 
zeugung eines Konsistenzpunkts, wie dies in Figur 5 gezeigt ist. Im Schritt 
540 werden zwei Fsinfo-Blocke auf Platte geraumt. Figur 2 IF reprasentiert 
das WAFL-Dateisystem in einem konsistenten Zustand anschlieBend an 
diesen Schritt. Die Dateien 2340, 2342, 2344 und 2346 des konsistenten 
Dateisystems nach AbschluB des Schritts 540 sind dmrch gestrichelte Lini- 
en in Figiu^ 2 IF angegeben. Im Schritt 550 wird der Konsistenzpunkt durch 
Verarbeitung der Inoden, die nicht in dem Konsistenzpunkt waren, abge- 
schlossen. 

Zugriffszeit-Uberschreibungen 

Unix-Dateisysteme mussen in jeder Inode eine ,^ugrifFszeit*' (atime von 
access time) enthalten. Atime gibt den letzten Zeitpunkt des Lesens der 
Datei an. Er wird jedesmal aktualisiert, wenn ein Zugriff auf die Datei er- 
folgt. Wenn also eine Datei gelesen wird, wird der Block, der die Inode in 
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der Inoden-Datei enthalt, neu geschrieben, um die Inode zu aktualisieren. 
Dies konnte von Nachteil fiir die Erzeugung von Schnappschussen deshalb 
sein, weil als Konsequenz das Lesen einer Datei moglichenveise Speicher- 
platz auf der Platte benotigt. AuCerdem konnte das Lesen samtlicher Da- 
5 teien innerhalb des Dateisystems 2air Folge haben, daB die gesamte Inoden- 
Datei dupliziert wird. Die vorliegende Erfindung lost dieses Problem. 

Wegen des Vorhandenseins von Atime kdnnte ein Lesevorgang mogli- 
chenveise Plattenspeicherplatz verbrauchen, da ein Modifizieren einer 
10 Inode zur Folge hat, daB ein neuer Block fur die Inoden-Datei auf die Plat- 
te geschrieben wird. AiiBerdem konnte ein Lesevorgang moglichenveise 
fehlschlagen, wenn ein Dateisystem voU ist, demzufolge ein abnormaler 
Zustand des Dateisystems auftritt. 

15 Im allgemeinen werden Daten auf einer Platte in dem WAFL-Dateisystem 
nicht iiberschrieben, um auf der Platte gespeicherte Daten zu schiitzen. Die 
einzige Ausnahme dieser Regel besteht darin, daB Atime fur eine Inode 
uberschreibt, wie dies in den Figuren 23A-23B gezeigt ist. Wenn ein 
,,Atime-Uberschreiben'* stattfindet, bestehen die einzigen in einem Block 

20 der Inoden-Datei modifizierten Daten in Atime fiir eine oder mehrere der 
Inoden, die sie enthalt, und der Block wird an derselben Stelle neu ge- 
schrieben. Dies ist die einzige Ausnahme iimerhalb des WAFL-Systems. 
Im ubrigen werden neue Daten stets auf neue Plattenspeicherplatze ge- 
schrieben. 

25 

In Figur 23A sind die Atimes 2423 und 2433 einer Inode 2422 in einem 
alten WAFL-Inoden-Datei-Block 2420 imd die SchnappschuBinode 2432, 
die den Block 2420 referenziert, dargestellt. Die Inode 2422 des Blocks 
2420 referenziert direkt den Block 2410, Atime 2423 der Inode 2422 ist 
30 ,,4/30 9:15 PM*% wahrend Atime 2433 der SchnappschuB-Inode 2432 „5/l 
10:00 AM" ist. Figur 23 A veranschaulicht das Dateisystem vor einem 
Zugriff auf den direkten Puffer 2410. 
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Figur 23B veranschaulicht die Inode 2422 des direkten Blocks 2410, nach- 
dem auf den direkten Block 2410 zugegriffen wurde. Wie in dem Dia- 
gramm dargestellt, wird die Zugriffszeit 2423 der Inode 2422 mit der 
Zugriffszeit 2433 des Schnappschusses 2432, den sie referenziert, uber- 
schrieben. Damit wird die Zugriffszeit 2423 der Inode 2422 fiir den direk- 
ten Block 2410 „5/l 1 1:23 AM". 

Das Zulassen des Uberschreibens von Inoden-Datei-Blocken mit neuen 
Zugriffszeiten (Atime) fiihrt zu einer leichten Inkonsistenz innerhalb des 
Schnappschusses. Die Atime fur eine Datei in einem SchnappschuB kann 
tatsachlich spater liegen als der Zeitpunkt, zu dem der SchnappschuB er- 
zeugt wurde. Um Benutzer an einem Feststellen dieser Inkonsistenz zu 
hindem, justiert WAFL den Wert Atime fiir samtliche Dateien innerhalb 
eines Schnappschusses auf diejenige Zeit ein, zu der der SchnappschuB 
tatsachlich erzeugt wurde, und nicht auf die Zeit, zu der auf die Datei zu- 
letzt zugegriffen wurde. Diese SchnappschuBzeit wird in der Inode gespei- 
chert, die den SchnappschuB in seiner Gesamtheit beschreibt. Wenn folg- 
lich uber den SchnappschuB zugegriffen wird, so wird die Zugriffszeit 
2423 fiir die Inode 2422 stets in Form „5/l 10:00 AM" gemeldet. Dies 
geschieht sowohl vor dem Aktualisieren, wenn man „4/30 9:15 PM" er- 
warten konnte, als auch nach der Aktuaiisierung, wenn „5/l 11:23 AM" 
erwartet werden konnte. Erfolgt ein Zugriff durch das aktive Dateisystem, 
so werden die Zeiten in der Form „4/30 9:15 PM" und „5/l 1 1:23 AM" vor 
bzw. nach dem Aktualisieren gemeldet. Auf diese Weise wird ein Verfah- 
ren zum Fuhren eines Dateisystems in einem konsistenten Zustand imd 
zum Erzeugen von ausschlieBlich lesbaren Kopien des Dateisystems of- 
fenbart. 
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Patentanspriiche 

1. Verfahren zxun Erzeugen eines Konsistenzpunkts, umfassend die 
Schritte: 

Markieren (510) einer Mehrzahl von Inoden, wobei eine Inode eine 
Dateidefinitionsstruktur ist, die zumindest eine Datei in einem Dateisy- 
stem beschreibt, die auf mehrere modifizierte Blocke in einem Dateisy- 
stem verweist, als in einem Konsistenzpunkt befindlich; 

Raumen (520) regularer Dateien sowie Metadateien (530) auf eine Spei- 
chereinrichtung; 

Raumen (540) mindestens eines Blocks von Dateisysteminfomiation auf 
die Speichereinrichtung; und 

emeutes Einstellen (550) jeglicher beruhrter Inoden, die nicht Teil des 
Konsistenzpunkts waren, in eine Warteschlange. 

2. Verfahren nach Anspruch 1, bei dem der Schritt des Raumens von 
Metadateien auf die Speichereinrichtung weiterhin folgende Schritte 
beinhaltet: 

Vorraumen (610) einer Inode aus einer Blockabbildungsdatei in eine 
Inodendatei; 
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Zuweisen (620) von Platz auf der Speichereinrichtung fur samtliche 
beruhrten Blocke in der Inode und den Blockabbildungsdateien; 

emeutes Raumen (630) der Inode fur die Blockabbildungsdatei; 

5 

Aktualisieren (640) einer Mehrzahl von Eintragen in der Blockab- 
bildimgsdatei, wobei jeder Eintrag unter den mehreren Eintragen einen 
Block auf der Speichereinrichning reprasentiert; und 

0 Schreiben (650) samUicher beruhrter Blocke in der Blockabbildungsdatei 

und der Inodendatei auf die Speichereinrichtung. 
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